DOI: 10.14489/vkit.2016.05.pp.003-011

Коробкин Д. М., Фоменков С. А., Давыдова С. В.
(c. 3-11)

Аннотация. Предложена трехшаговая методика обработки текстовой информации из патентного массива для задачи поиска физических эффектов. В методе статистического анализа рассмотрено применение процедуры сравнения векторов принадлежности неименованным кластерам, полученных методом латентного размещения Дирихле, для полнотекстового описания физического эффекта как поискового запроса и всех патентов из массива. На этапе семантического анализа использованы: разложение сложного предложения формулы изобретения на несколько простых и построение для них деревьев зависимостей; упрощение семантического дерева на основе применения глубинно-синтаксических отношений; вычисление коэффициентов подобия для семантических деревьев, построенных на основе описания физического эффекта и формул изобретений из патентного массива.

Ключевые слова:  патент; физический эффект; обработка естественно-языкового текста; семантический анализ; деревья зависимостей; метод латентного размещения Дирихле.


Korobkin D. M., Fomenkov S. A., Davydova S. V.
(pp. 3-11)

Abstract. One of the most promising approaches to realize first stages of computeraided design of new technical systems and technologies is concerned with use of structured physical knowledge in the form of physical effects. Since a lot of physical inventions and discoveries are contained in global patent space, nowadays the actual task is a physical effects retrieval in patent databases. In this paper we proposed a three-steps methodology to solve problem of physical effects extracting from patent global space, consists of preprocessing step, statistical analysis and semantic analysis. During the preprocessing step for statistical analysis we excluded from patents’ texts the most frequent and rare words according to TF–IDF method (Term Frequency – Inverse Document Frequency).Latent Dirichlet Allocation used for initial clustering of the patent domain. For search query (description of physical effect) we use the following steps to obtain relevant patents: calculate multiple topic per document distributions, calculate similarities between topic per document distributions of search query and existing patents, rank the final list of relevant patents according to distributions similarities. On the third step we use a semantic trees of full-text physical effect descriptions for compare with trees from selected subset received on the step of statistical analysis. We rerank relevant patents from selected subset according to similarities between semantic trees. On the step of semantic analysis we applied: the method of the complex sentence decomposition into several simple dependency trees, the method of the semantic tree simplification on base of Deep syntactic relations, the method of semantic similarity calculation. The developed methods and algorithms also help us to solve the problem of extraction the new physical effect description from the patent texts.

Keywords: Patent; Physical effect; Natural Language processing; Semantic analysis; Dependency tree; Method of Latent Dirichlet Allocation.


Д. М. Коробкин, С. А. Фоменков (Волгоградский государственный технический университет) E-mail:  Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
С. В. Давыдова (ООО «ПотребКонсалт»)


D. M. Korobkin, S. A. Fomenkov (Volgograd State Technical University) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
S. V. Davydova (LLC “PotrebConsult”)



