10.14489/vkit.2021.11.pp.003-012 |
DOI: 10.14489/vkit.2021.11.pp.003-012 Васильев С. С., Коробкин Д. М., Фоменков С. А. Аннотация. В рамках решения задачи информационного обеспечения синтеза новых технических решений представлен метод извлечения структурированных данных из массива патентов с последующим наполнением онтологии предметной области. В качестве данных выступают элементы конструкций технических объектов и связи между ними. Метод основан на поверхностном синтаксическом анализе и сегментации предложений с учетом специфики написания текстов патентов. Конечным результатом работы является организация онтологии предметной области, которая может использоваться для поиска альтернативных вариантов исполнения узлов технических объектов. В первой части статьи описан метод сегментации формулы изобретения и извлечения первичных семантических структур, во второй – алгоритм построения дерева элементов конструкции отдельного технического объекта. Дана оценка эффективности системы, рассмотрены организация онтологии предметной области и конечный результат. Ключевые слова: патент; извлечение данных; SAO, CAI-системы; поверхностный синтаксический анализ; онтология.
Vasiliev S. S., Korobkin D. M., Fomenkov S. A. Abstract. To solve the problem of information support for the synthesis of new technical solutions, a method of extracting structured data from an array of Russian-language patents is presented. The key features of the invention, such as the structural elements of the technical object and the relationships between them, are considered as information support. The data source addresses the main claim of the invention in the device patent. The unit of extraction is the semantic structure Subject-Action-Object (SAO), which semantically describes the constructive elements. The extraction method is based on shallow parsing and claim segmentation, taking into account the specifics of writing patent texts. Often the excessive length of the claim sentence and the specificity of the patent language make it difficult to efficiently use off-the-shelf tools for data extracting. All processing steps include: segmentation of the claim sentences; extraction of primary SAO structures; construction of the graph of the construct elements f the invention; integration of the data into the domain ontology. This article deals with the first two stages. Segmentation is carried out according to a number of heuristic rules, and several natural language processing tools are used to reduce analysis errors. The primary SAO elements are extracted considering the valences of the predefined semantic group of verbs, as well as information about the type of processed segment. The result of the work is the organization of the domain ontology, which can be used to find alternative designs for nodes in a technical object. In the second part of the article, an algorithm for constructing a graph of structural elements of a separate technical object, an assessment of the effectiveness of the system, as well as ontology organization and the result are considered. Keywords: Patent; Data extraction; SAO, CAI-systems; Shallow parsing; Ontology.
РусС. С. Васильев, Д. М. Коробкин, С. А. Фоменков, (Волгоградский государственный технический университет, Волгоград, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript EngS. S. Vasiliev, D. M. Korobkin, S. A. Fomenkov (Volgograd State Technical University, Volgograd, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
Рус1. Yang C., Zhu D., Wang X. SAO Semantic Information Identification for Text Mining // International Journal of Computational Intelligence Systems. 2017. V. 10(1). P. 593 – 604. DOI 10.2991/ijcis.2017.10.1.40 Eng1. Yang C., Zhu D., Wang X. (2017). SAO Semantic Information Identification for Text Mining. International Journal of Computational Intelligence Systems, Vol. 10, (1), pp. 593 – 604. DOI 10.2991/ijcis.2017.10.1.40
РусСтатью можно приобрести в электронном виде (PDF формат). Стоимость статьи 450 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке. После поступления денег на счет издательства, вам будет выслан электронный вариант статьи. Для заказа скопируйте doi статьи: 10.14489/vkit.2021.11.pp.003-012 Отправляя форму вы даете согласие на обработку персональных данных. .
EngThis article is available in electronic format (PDF). The cost of a single article is 450 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank. After depositing your payment on our bank account we send you file of the article by e-mail. To order articles please copy the article doi: 10.14489/vkit.2021.11.pp.003-012 and fill out the
.
|