10.14489/vkit.2021.12.pp.022-029 |
DOI: 10.14489/vkit.2021.12.pp.022-029 Васильев С. С., Коробкин Д. М., Фоменков С. А. Аннотация. Продолжение описания частичного решения фундаментальной проблемы информационного обеспечения синтеза новых технических решений посредством организации онтологии предметной области и наполнения ее данными из патентного массива Представлен алгоритм построения графа элементов конструкций технического объекта из ранее извлеченных первичных семантических структур Субъект–Действие–Объект с последующей конвертацией данных в онтологию. Осуществлена оценка извлечения данных системой: значение метрики F1 для строгой оценки составляет 63 %, для нестрогой – 79 %. Схема онтологии в качестве концептов включает элементы конструкций технических объектов и связи между ними, а также вспомогательную информацию по изобретению. Представлены примеры извлечения информации из составленной базы, что отражает итог данного исследования. Полученные результаты позволяют говорить о перспективности предложенного подхода и обозначить будущее направление исследований. Ключевые слова: патент; извлечение данных; CAI-системы; поверхностный синтаксический анализ; онтология.
Vasiliev S. S., Korobkin D. M., Fomenkov S. A. Abstract. The article goes on to describe a solution to the problem of information support for the synthesis of new technical systems. The method consists in organizing the ontology of the subject area and filling it with data from the Russian-language patent array. An algorithm is presented for constructing a graph of elements of technical object structures from previously extracted primary semantic SAO (Subject–Action–Object) structures. The extracted bundles are preprocessed by searching for homogeneous sentence members and generating additional case forms. This is followed by linking the prepared SAO-objects into a single graph. The mechanism consists in sequentially transforming the subject and object actants into a set of anchor points from a common vocabulary of terms, followed by the memorization of the relation (predicate) for the identified points. The evaluation of data extraction by the system is carried out: the value of the F1 metric for a strict evaluation is 63 % and for a non-strict 79 %, respectively. The non-strict evaluation takes into account the correctness of the extraction of SAO root elements only. The extracted data is then converted into a subject domain ontology. The ontology scheme as a concept includes the structural elements of technical objects and the relationship between them, as well as supporting information on the invention. The initial content of the ontology is based on the processing of 11, 200 patent documents for inventions. The existing scheme already allows retrieving useful information about alternatives of structural components and communications between them. For example, searching for all elements of a structure in a given invention or tracking relationships. The results suggest that the proposed approach is promising. The authors see further research direction in improving the existing data extraction method and extending the ontology. Keywords: Patent; Data extraction; CAI-systems; Shallow parsing; Ontology.
РусС. С. Васильев, Д. М. Коробкин, С. А. Фоменков (Волгоградский государственный технический университет, Волгоград, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript EngS. S. Vasiliev, D. M. Korobkin, S. A. Fomenkov (Volgograd State Technical University, Volgograd, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
Рус1. Васильев С. С., Коробкин Д. М., Фоменков С. А. Метод формирования информационного обеспечения синтеза новых технических решений на основе анализа патентного массива. Ч. 1 // Вестник компьютерных и информационных технологий. 2021. Т. 18, № 11. C. 3 – 12. DOI 10.14489/vkit.2021.11.pp.003-012 Eng1. Vasil'ev S. S., Korobkin D. M., Fomenkov S. A. (2021). The method of forming information support for the synthesis of new technical solutions based on the analysis of the patent array. Part 1. Vestnik komp'yuternyh i informatsionnyh tekhnologiy, Vol. 18, (11), pp. 3 – 12. [in Russian language] DOI 10.14489/vkit.2021.11.pp. 003-012
РусСтатью можно приобрести в электронном виде (PDF формат). Стоимость статьи 450 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке. После поступления денег на счет издательства, вам будет выслан электронный вариант статьи. Для заказа скопируйте doi статьи: 10.14489/vkit.2021.12.pp.022-029 Отправляя форму вы даете согласие на обработку персональных данных. .
EngThis article is available in electronic format (PDF). The cost of a single article is 450 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank. After depositing your payment on our bank account we send you file of the article by e-mail. To order articles please copy the article doi: 10.14489/vkit.2021.12.pp.022-029 and fill out the
.
|