| Русский Русский | English English |
   
Главная Архив номеров
19 | 11 | 2024
10.14489/vkit.2021.11.pp.003-012

DOI: 10.14489/vkit.2021.11.pp.003-012

Васильев С. С., Коробкин Д. М., Фоменков С. А.
МЕТОД ФОРМИРОВАНИЯ ИНФОРМАЦИОННОГО ОБЕСПЕЧЕНИЯ СИНТЕЗА НОВЫХ ТЕХНИЧЕСКИХ РЕШЕНИЙ НА ОСНОВЕ АНАЛИЗА ПАТЕНТНОГО МАССИВА. ЧАСТЬ 1
(с. 3-12)

Аннотация. В рамках решения задачи информационного обеспечения синтеза новых технических решений представлен метод извлечения структурированных данных из массива патентов с последующим наполнением онтологии предметной области. В качестве данных выступают элементы конструкций технических объектов и связи между ними. Метод основан на поверхностном синтаксическом анализе и сегментации предложений с учетом специфики написания текстов патентов. Конечным результатом работы является организация онтологии предметной области, которая может использоваться для поиска альтернативных вариантов исполнения узлов технических объектов. В первой части статьи описан метод сегментации формулы изобретения и извлечения первичных семантических структур, во второй – алгоритм построения дерева элементов конструкции отдельного технического объекта. Дана оценка эффективности системы, рассмотрены организация онтологии предметной области и конечный результат.

Ключевые слова:  патент; извлечение данных; SAO, CAI-системы; поверхностный синтаксический анализ; онтология.

 

Vasiliev S. S., Korobkin D. M., Fomenkov S. A.
METHOD OF DOMAIN ONTOLOGY AUTOMATED REPLENISHMENT FOR THE SUPPORT OF NEW TECHNICAL SOLUTIONS SYNTHESIS. PART I
(pp. 3-12)

Abstract. To solve the problem of information support for the synthesis of new technical solutions, a method of extracting structured data from an array of Russian-language patents is presented. The key features of the invention, such as the structural elements of the technical object and the relationships between them, are considered as information support. The data source addresses the main claim of the invention in the device patent. The unit of extraction is the semantic structure Subject-Action-Object (SAO), which semantically describes the constructive elements. The extraction method is based on shallow parsing and claim segmentation, taking into account the specifics of writing patent texts. Often the excessive length of the claim sentence and the specificity of the patent language make it difficult to efficiently use off-the-shelf tools for data extracting. All processing steps include: segmentation of the claim sentences; extraction of primary SAO structures; construction of the graph of the construct elements f the invention; integration of the data into the domain ontology. This article deals with the first two stages. Segmentation is carried out according to a number of heuristic rules, and several natural language processing tools are used to reduce analysis errors. The primary SAO elements are extracted considering the valences of the predefined semantic group of verbs, as well as information about the type of processed segment. The result of the work is the organization of the domain ontology, which can be used to find alternative designs for nodes in a technical object. In the second part of the article, an algorithm for constructing a graph of structural elements of a separate technical object, an assessment of the effectiveness of the system, as well as ontology organization and the result are considered.

Keywords: Patent; Data extraction; SAO, CAI-systems; Shallow parsing; Ontology.

Рус

С. С. Васильев, Д. М. Коробкин, С. А. Фоменков, (Волгоградский государственный технический университет, Волгоград, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Eng

S. S. Vasiliev, D. M. Korobkin, S. A. Fomenkov (Volgograd State Technical University, Volgograd, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Рус

1. Yang C., Zhu D., Wang X. SAO Semantic Information Identification for Text Mining // International Journal of Computational Intelligence Systems. 2017. V. 10(1). P. 593 – 604. DOI 10.2991/ijcis.2017.10.1.40
2. Identification of Technology Development Trends Based on Subject–Action–Object Analysis: The Case of Dye-Sensitized Solar Cells / X. Wang, P. Qiu, L. Zhu et al. // Technological Forecasting and Social Change. 2015. V. 98. P. 24 – 46. DOI 10.1016/j.techfore.2015.05.014
3. SAO Network Analysis of Patents for Technology Trends Identification: A Case Study of Polymer Electrolyte Membrane Technology in Proton Exchange Membrane Fuel Cells / S. Choi, J. Yoon, K. Kim et al. // Scientometrics. 2011. P. 863 – 883. DOI 10.1007/s11192-011-0420-z
4. Guo J., Wang X., Li Q., Zhu D. Subject–Action–Object–Based Morphology Analysis for Determining the Direction of Technological Change // Technological Forecasting and Social Change. 2016. V. 105. P. 27 – 40. DOI 10.1016/j.techfore. 2016.01.028
5. Souili A., Cavallucci D., Rousselot F., Zanni-Merk C. Starting from Patents to Find Inputs to the Problem Graph Model of IDM-TRIZ // Procedia Engineering. 2015. P. 150 – 161. DOI 10.1016/j.proeng.2015.12.365
6. Проект Tomitaparser [Электронный ресурс]: офиц. сайт. URL: https://yandex.ru/dev/tomita/ (дата обращения: 10.03.2021).
7. Рубайло А. В., Косенко М. Ю. Программные средства извлечения информации из текстов на естественном языке // Альманах современной науки и образования. № 12. С. 87 – 92. Тамбов: Грамота, 2016.
8. Кобликов И. А., Коробкин Д. М., Фоменков С. А., Яровенко В. А. Методика извлечения описаний реализуемых в патенте технических функций // Известия Волгоградского государственного технического университета. 2017. № 8(203). С. 55 – 59.
9. Проект UFAL UDPipe [Электронный ресурс]: офиц. сайт. 2019. URL: http://ufal.mff.cuni.cz/udpipe (дата обращения: 10.03.2021).
10. Морфоанализатор MyStem [Электронный ресурс]: офиц. сайт. 2019. URL: https://yandex.ru/dev/mystem/ (дата обращения: 10.03.2021).
11. Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts. 2015. P. 320 – 332. DOI 10.1007/978-3-319-26123-2_31
12. Феногенова А. Чанкер именных групп русского языка [Электронный ресурс]: сайт. 2018. URL: http://web-corpora.net/wsgi/chunker.wsgi/npchunker/ npchunker/ (дата обращения: 10.03.2021).
13. А. с. 1472773 СССР, МПК G01L 7/08. Датчик давления / А. С. Блайвас, Н. В. Филиппова, А. П. Штыков; заявка № 4297896/24-10 от 24.08.87; опубл. 15.04.89;Бюл. № 14.

Eng

1. Yang C., Zhu D., Wang X. (2017). SAO Semantic Information Identification for Text Mining. International Journal of Computational Intelligence Systems, Vol. 10, (1), pp. 593 – 604. DOI 10.2991/ijcis.2017.10.1.40
2. Wang X., Qiu P., Zhu L. et al. (2015). Identification of Technology Development Trends Based on Subject–Action–Object Analysis: The Case of Dye-Sensitized Solar Cells. Technological Forecasting and Social Change, Vol. 98, pp. 24 – 46. DOI 10.1016/j.techfore.2015.05.014
3. Choi S., Yoon J., Kim K. et al. (2011). SAO Network Analysis of Patents for Technology Trends Identification: A Case Study of Polymer Electrolyte Membrane Technology in Proton Exchange Membrane Fuel Cells. Scientometrics, pp. 863 – 883. DOI 10.1007/s11192-011-0420-z
4. Guo J., Wang X., Li Q., Zhu D. (2016). Subject–Action–Object–Based Morphology Analysis for Determining the Direction of Technological Change. Technological Forecasting and Social Change, Vol. 105, pp. 27 – 40. DOI 10.1016/j.techfore. 2016.01.028
5. Souili A., Cavallucci D., Rousselot F., Zanni-Merk C. (2015). Starting from Patents to Find Inputs to the Problem Graph Model of IDM-TRIZ. Procedia Engineering, pp. 150 – 161. DOI 10.1016/ j.proeng.2015.12.365
6. Tomitaparser project. Available at: https://yandex.ru/dev/tomita/ (Accessed: 10.03.2021). [in Russian language]
7. Rubaylo A. V., Kosenko M. Yu. (2016). Natural language information extraction software. Al'manah sovremennoy nauki i obrazovaniya, (12), pp. 87 – 92. Tambov: Gramota. [in Russian language]
8. Koblikov I. A., Korobkin D. M., Fomenkov S. A., Yarovenko V. A. (2017). Method for extracting descriptions of technical functions implemented in a patent. Izvestiya Volgogradskogo gosudarstvennogo tekhnicheskogo universiteta, 203(8), pp. 55 – 59. [in Russian language]
9. UFAL UDPipe Project. (2019). Available at: http://ufal.mff.cuni.cz/udpipe (Accessed: 10.03.2021).
10. Morpho analyzer MyStem. (2019). Available at: https://yandex.ru/dev/mystem/ (Accessed: 10.03.2021). [in Russian language]
11. Korobov M. (2015). Morphological Analyzer and Generator for Russian and Ukrainian Languages. Analysis of Images, Social Networks and Texts, pp. 320 – 332. DOI 10.1007/978-3-319-26123-2_31
12. Fenogenova A. (2018). Chunker noun phrase of the Russian language. Available at: http://web-corpora.net/wsgi/ chunker.wsgi/npchunker/npchunker/ (Accessed: 10.03.2021). [in Russian language]
13. Blayvas A. S., Filippova N. V., Shtykov A. P. Pressure sensor. Certificate of authorship No. 1472773. USSR. [in Russian language]

Рус

Статью можно приобрести в электронном виде (PDF формат).

Стоимость статьи 450 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.

После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.

Для заказа скопируйте doi статьи:

10.14489/vkit.2021.11.pp.003-012

и заполните  форму 

Отправляя форму вы даете согласие на обработку персональных данных.

.

 

Eng

This article  is available in electronic format (PDF).

The cost of a single article is 450 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.

After depositing your payment on our bank account we send you file of the article by e-mail.

To order articles please copy the article doi:

10.14489/vkit.2021.11.pp.003-012

and fill out the  form  

 

.

 

 

 
Поиск
Rambler's Top100 Яндекс цитирования