10.14489/vkit.2025.02.pp.032-038 |
DOI: 10.14489/vkit.2025.02.pp.032-038 Никитина С. А., Корзунина А. А. Аннотация. Автоматическое обнаружение омонимов и определение их значений – важная задача в искусственном интеллекте. Омонимия может создавать трудности при автоматической обработке текста, поэтому важно уметь ее выявлять. Люди определяют смысловое значение омонимов, отталкиваясь от контекста. Принципы для компьютерной обработки текста с омонимами часто основаны на аналогичном подходе: сначала находится слово-омоним, а затем предсказывается его семантика на основе контекста. Рассматривается применение нейросетевых технологий для решения задачи обработки текста. Построена нейронная сеть для распознавания семантического значения омонимов. Предварительно для выполнения поставленной задачи был собран и размечен датасет, состоящий из 55 000 текстов, отобранных с сайта «Национальный корпус русского языка» (www.ruscorpora.ru). Была проведена предобработка данных – токенизация и лемматизация. Разработанная сеть была обучена и показала приемлемую точность распознавания на тестовых примерах. Ключевые слова: нейронные сети; автоматическая обработка естественного языка; анализ текста; проблема омонимии.
Nikitina S. A., Korzunina A. A. Abstract. The phenomenon of homonymy can be found in many natural languages. Its essence consists in the sound coincidence of various linguistic units that have unrelated concepts. The presence of homonyms in the text can become an obstacle to its correct computer processing. Therefore, currently, the removal of homonymy is often considered as a separate stage of text analysis in machine translation tasks, extracting the main semantic content from information, improving the accuracy of query processing, and others. The process of automatic detection of homonyms, as well as determining their semantic meaning, is an important task in the field of artificial intelligence. A person is able to define homonymy based on context. The rules for computer processing of texts containing homonyms are based on a similar approach, that is, first a search for a homonymous word takes place, and then its semantics is predicted according to a given context. The most urgent task of removing homonymy is for languages with complex word formation and inflection, including the Russian language. The article discusses the use of neural networks for processing Russian-language text in order to determine the semantic meaning of homonyms. To solve this problem, a special neural network architecture was created, a dataset from texts from the National Corpus of the Russian Language website was collected and marked up, and special data preprocessing (tokenization and lemmatization) was carried out. The resolution of homonymy in this case boils down to the task of classification. The trained network showed acceptable recognition accuracy on test examples. Keywords: Neural networks; Automatic natural language processing; Text analysis; Problem of homonymy.
РусС. А. Никитина, А. А. Корзунина (Челябинский государственный университет, Челябинск, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript EngS. A. Nikitina, A. A. Korzunina (Chelyabinsk State University, Chelyabinsk, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
Рус1. Национальный корпус русского языка [Электронный ресурс]. URL: http://www.ruscorpora.ru/ (дата обращения: 12.07.2024). Eng1. National Corpus of the Russian Language. Retrieved from http://www.ruscorpora.ru/ Accessed: 12.07.2024). [in Russian language]
РусСтатью можно приобрести в электронном виде (PDF формат). Стоимость статьи 700 руб. (в том числе НДС 20%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке. После поступления денег на счет издательства, вам будет выслан электронный вариант статьи. Для заказа скопируйте doi статьи: 10.14489/vkit.2025.02.pp.032-038 Отправляя форму вы даете согласие на обработку персональных данных. .
EngThis article is available in electronic format (PDF). The cost of a single article is 700 rubles. (including VAT 20%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank. After depositing your payment on our bank account we send you file of the article by e-mail. To order articles please copy the article doi: 10.14489/vkit.2025.02.pp.032-038 and fill out the
.
|