| Русский Русский | English English |
   
Главная Archive
19 | 11 | 2024
10.14489/vkit.2016.05.pp.003-011

DOI: 10.14489/vkit.2016.05.pp.003-011

Коробкин Д. М., Фоменков С. А., Давыдова С. В.
ПОИСК ОПИСАНИЙ ФИЗИЧЕСКИХ ЭФФЕКТОВ В ПАТЕНТНОМ МАССИВЕ
(c. 3-11)

Аннотация. Предложена трехшаговая методика обработки текстовой информации из патентного массива для задачи поиска физических эффектов. В методе статистического анализа рассмотрено применение процедуры сравнения векторов принадлежности неименованным кластерам, полученных методом латентного размещения Дирихле, для полнотекстового описания физического эффекта как поискового запроса и всех патентов из массива. На этапе семантического анализа использованы: разложение сложного предложения формулы изобретения на несколько простых и построение для них деревьев зависимостей; упрощение семантического дерева на основе применения глубинно-синтаксических отношений; вычисление коэффициентов подобия для семантических деревьев, построенных на основе описания физического эффекта и формул изобретений из патентного массива.

Ключевые слова:  патент; физический эффект; обработка естественно-языкового текста; семантический анализ; деревья зависимостей; метод латентного размещения Дирихле.

 

Korobkin D. M., Fomenkov S. A., Davydova S. V.
SEARCH OF PHYSICAL EFFECT DESCRIPTIONS IN GLOBAL PATENT SPACE
(pp. 3-11)

Abstract. One of the most promising approaches to realize first stages of computeraided design of new technical systems and technologies is concerned with use of structured physical knowledge in the form of physical effects. Since a lot of physical inventions and discoveries are contained in global patent space, nowadays the actual task is a physical effects retrieval in patent databases. In this paper we proposed a three-steps methodology to solve problem of physical effects extracting from patent global space, consists of preprocessing step, statistical analysis and semantic analysis. During the preprocessing step for statistical analysis we excluded from patents’ texts the most frequent and rare words according to TF–IDF method (Term Frequency – Inverse Document Frequency).Latent Dirichlet Allocation used for initial clustering of the patent domain. For search query (description of physical effect) we use the following steps to obtain relevant patents: calculate multiple topic per document distributions, calculate similarities between topic per document distributions of search query and existing patents, rank the final list of relevant patents according to distributions similarities. On the third step we use a semantic trees of full-text physical effect descriptions for compare with trees from selected subset received on the step of statistical analysis. We rerank relevant patents from selected subset according to similarities between semantic trees. On the step of semantic analysis we applied: the method of the complex sentence decomposition into several simple dependency trees, the method of the semantic tree simplification on base of Deep syntactic relations, the method of semantic similarity calculation. The developed methods and algorithms also help us to solve the problem of extraction the new physical effect description from the patent texts.

Keywords: Patent; Physical effect; Natural Language processing; Semantic analysis; Dependency tree; Method of Latent Dirichlet Allocation.

Рус

Д. М. Коробкин, С. А. Фоменков (Волгоградский государственный технический университет) E-mail:  Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
С. В. Давыдова (ООО «ПотребКонсалт»)

Eng

D. M. Korobkin, S. A. Fomenkov (Volgograd State Technical University) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
S. V. Davydova (LLC “PotrebConsult”)

 

Рус

1. Фоменков С. А., Колесников С. Г. Информационное наполнение баз данных по физическим эффектам // Информационные технологии. 2004. № 6. С. 60 – 62.
2. Фоменков С. А., Колесников С. Г., Дворянкин А. М. Использование структурированных физических знаний для прогнозирования новых нанотехнических систем // Изв. Волгоград. гос. техн. ун-та. Сер. Актуальные проблемы управления, вычислительной техники и информатики в технических системах. 2012. Вып. 13, № 4(91). С. 80 – 82.
3. Открытые реестры [Электронный ресурс] // Сайт ФИПС. Информационные ресурсы. URL: http:// www1.fips.ru/wps/portal/Registers/ (дата обращения: 28.02.2016).
4. Search for Patents [Электронный ресурс] // United States Patent and Trademark Office. URL: http://www. uspto.gov/patents/process/search/#heading-1 (дата обращения: 28.02.2016).
5. Леонтьева Н. Н. Автоматическое понимание текстов: системы, модели, ресурсы: учеб. пособие. М.: Академия, 2006. 304 с.
6. Тузов В. А. Компьютерная семантика русского языка. СПб.: Изд-во СПбГУ, 2003. 391 с.
7. Freitag D. Machine Learning for Information Extraction in Informal Domains // Machine Learning. 2000. № 39. Р. 169 – 202.
8. Sarawagi S. Information Extraction // Foundations and Trends in Databases. 2008. V. 1, № 3. Р. 261 – 377.
9. RCO Fact Extractor SDK [Электронный ресурс]: офиц. сайт ООО «ЭР СИ О». URL: http://www.rco.ru/ ?page_id=3554# Trial (дата обращения: 28.02.2016).
10. RapidMiner Predictive Analytics Platform [Электронный ресурс] // RapidMiner, Inc. URL: https:// rapidminer.com/products/ (дата обращения: 28.02.2016).
11. Salton G., Buckley C. Term-Weighting Approaches in Automatic Text Retrieval // Information Processing & Management. 1998. V. 24, № 5. Р. 513 – 523.
12. Blei D. M., Ng A. Y., Jordan M. I. Latent Dirichlet Allocation [Электронный ресурс] // Journal of Machine Learning Research. 2003. № 3. Р. 993 – 1022. URL: http://jmlr.org/papers/volume3/blei03a/blei03a.pdf (дата обращения: 28.02.2016).
13. Schmid H. Improvements In Part-of-Speech Tagging [Электронный ресурс] // The Center for Information and Language Processing (CIS). URL: http://www.cis.uni-muenchen.de/~schmid/tools/TreeTagger/data/tree-tagger2.pdf (дата обращения: 28.02.2016).
14. Hall J. MaltParser – An Architecture for Inductive Labeled Dependency Parsing [Электронный ресурс]. 2006. 76 p. URL: http://hall.maltparser.org/cv/pub/msire-port06050_ johan_hall_lic_ final.pdf (дата обращения: 28.02.2016).
15. De Marneffe М.-С., Manning C. D. Stanford Typed Dependencies Manual [Электронный ресурс] // The Stanford Natural Language Processing Group. URL: http://nlp.stanford.edu/software/dependencies_manual.pdf (дата обращения: 28.02.2016).
16. Mel'čuk I. Aspects of the Theory of Morphology. Berlin; New York: Mouton de Gruyter, 2006. 616 р.
17. Ferraro G. Towards Deep Content Extraction from Specialized Discourse: the Case of Verbal Relations in Patent Claims. PhD. Universitat Pompeu Fabra: Department of Information and Communication Technologies. Barcelona, 2012. 196 p.
18. Крапивина Н. В., Коробкин Д. М., Фоменков С. А. Автоматизация фильтрации электронных первоисточников по признаку знаний о нанотехнологиях и выявление описаний нанотехнологий // Изв. Волгоград. гос. техн. ун-та. Сер. Актуальные проблемы управления, вычислительной техники и информатики в технических системах. 2012. Вып. 14, № 10(97). С. 161 – 166.
19. Коробкин Д. М., Фоменков С. А. Модель представления структурированной предметной информации в виде физических эффектов в тексте на естественном русском языке // Вестник компьютерных и информационных технологий. 2009. № 7. С. 17 – 21.
20. Коробкин Д. М., Фоменков С. А., Колесников С. Г. Автоматизация процесса формирования информационного обеспечения базы данных физических эффектов // Вестник компьютерных и информационных технологий. 2005. № 3. С. 22 – 25.

Eng

1. Fomenkov S. A., Kolesnikov S. G. (2004). Information content filling of the databases with the physical effects data. Informatsionnye tekhnologii, (6), pp. 60-62.
2. Fomenkov S. A., Kolesnikov S. G., Dvoriankin A. M. (2012). Application of structured physical knowledge to predict new biotechnical systems. Izvestiia Volgogradskogo gosudarstvennogo tekhnicheskogo universiteta. Seriia Aktual'nye problemy upravleniia, vychislitel'noi tekhniki i informatiki v tekhnicheskikh sistemakh. Vol. 13, 91(4), pp. 80-82.
3. Open registers. Official site of the Federal Institute of Industrial Property. Information resources. Available at: http://www1.fips.ru/wps/portal/Registers/ (Accessed: 28.02.2016).
4. Search for patents. United States Patent and Trade-mark Office. Available at: http://www. uspto.gov/patents/ process/search/#heading-1 (Accessed: 28.02.2016).
5. Leont'eva N. N. (2006). Automatic understanding of the texts: systems, models, resources: textbook. Moscow: Akademiia.
6. Tuzov V. A. (2003). Computer semantics of Russian language. St. Petersburg: Izdatel'stvo SPbGU.
7. Freitag D. (2000). Machine learning for information extraction in informal domains. Machine Learning, 39, pp. 169 – 202.
8. Sarawagi S. (2008). Information extraction. Foundations and Trends in Databases, 1(3), pp. 261 – 377. doi: 10.1561/1900000003
9. RCO Fact Extractor SDK. Official site: «RCO» LLC. Available at: http://www.rco.ru/ ?page_id=3554# Trial (Accessed: 28.02.2016).
10. RapidMiner predictive analytics platform. RapidMiner, Inc. Available at: https:// rapidminer.com/ products/ (Accessed: 28.02.2016).
11. Salton G., Buckley C. (1998). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), pp. 513 – 523. doi: 10.1016/0306-4573(88)90021-0
12. Blei D. M., Ng A. Y., Jordan M. I. (2003). Latent Dirichlet allocation. Journal of Machine Learning Research, (3), pp. 993 – 1022. Available at: http://jmlr.org/papers/ vol-ume3/blei03a/blei03a.pdf (Accessed: 28.02.2016).
13. Schmid H. Improvements in part-of-speech tagging. The Center for Information and Language Processing (CIS). Available at: http://www.cis.uni-muenchen.de/~schmid/tools/ TreeTagger/data/tree-tagger2.pdf (Accessed: 28.02.2016).
14. Hall J. (2006). MaltParser – an architecture for inductive labeled dependency parsing. Available at: http://hall.maltparser.org/cv/pub/msireport06050_johan_hall_lic_ final.pdf (Accessed: 28.02.2016).
15. De Marneffe М.-С., Manning C. D. Stanford typed dependencies manual. The Stanford Natural Language Processing Group. Available at: http://nlp.stanford. edu/software/dependencies_manual.pdf (Accessed: 28.02.2016).
16. Mel'čuk I. (2006). Aspects of the theory of morphology. Berlin; New York: Mouton de Gruyter.
17. Ferraro G. (2012). Towards deep content extraction from specialized discourse: the case of verbal relations in patent claims. PhD. Universitat Pompeu Fabra: Department of Information and Communication Technologies. Barcelona.
18. Krapivina N. V., Korobkin D. M., Fomenkov S. A. (2012). Automation of electronic filtering of primary sources on the basis of knowledge about nanotechnology and identification of the descriptions of nanotechnology. Izvestiia Volgogradskogo gosudarstvennogo tekhnicheskogo universiteta. Seriia Aktual'nye problemy upravleniia, vychislitel'noi tekhniki i informatiki v tekhnicheskikh sistemakh, Vol. 14, 97(10), pp. 161-166.
19. Korobkin D.M., Fomenkov S.A. (2009). Model of representation of the structured subject information in the form of physical effects in the Russian language text. Vestnik komp'iuternykh i informatsionnykh tekhnologii, (7), pp. 17-21.
20. Korobkin D. M., Fomenkov S. A., Kolesnikov S. G. (2005). Automating of the process of providing information supply for the database to ensure the physical effects data. Vestnik komp'iuternykh i informatsionnykh tekhnologii, (3), pp. 22-25.

Рус

Статью можно приобрести в электронном виде (PDF формат).

Стоимость статьи 350 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.

После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.

Для заказа статьи заполните форму:

{jform=1,doi=10.14489/vkit.2016.05.pp.003-011}

.

Eng

This article  is available in electronic format (PDF).

The cost of a single article is 350 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.

After depositing your payment on our bank account we send you file of the article by e-mail.

To order articles please fill out the form below:

{jform=2,doi=10.14489/vkit.2016.05.pp.003-011}

 

 

 

 

 

.

.

 

 

 
Search
Rambler's Top100 Яндекс цитирования