| Русский Русский | English English |
   
Главная Архив номеров
29 | 03 | 2025
10.14489/vkit.2025.02.pp.032-038

DOI: 10.14489/vkit.2025.02.pp.032-038

Никитина С. А., Корзунина А. А.
НЕЙРОСЕТЕВОЙ ПОДХОД ДЛЯ ОПРЕДЕЛЕНИЯ СМЫСЛОВОГО ЗНАЧЕНИЯ ОМОНИМОВ В РУССКОЯЗЫЧНЫХ ТЕКСТАХ
(c. 32-38)

Аннотация. Автоматическое обнаружение омонимов и определение их значений – важная задача в искусственном интеллекте. Омонимия может создавать трудности при автоматической обработке текста, поэтому важно уметь ее выявлять. Люди определяют смысловое значение омонимов, отталкиваясь от контекста. Принципы для компьютерной обработки текста с омонимами часто основаны на аналогичном подходе: сначала находится слово-омоним, а затем предсказывается его семантика на основе контекста. Рассматривается применение нейросетевых технологий для решения задачи обработки текста. Построена нейронная сеть для распознавания семантического значения омонимов. Предварительно для выполнения поставленной задачи был собран и размечен датасет, состоящий из 55 000 текстов, отобранных с сайта «Национальный корпус русского языка» (www.ruscorpora.ru). Была проведена предобработка данных – токенизация и лемматизация. Разработанная сеть была обучена и показала приемлемую точность распознавания на тестовых примерах.

Ключевые слова:  нейронные сети; автоматическая обработка естественного языка; анализ текста; проблема омонимии.

 

Nikitina S. A., Korzunina A. A.
A NEURAL NETWORK APPROACH FOR DETERMINING THE SEMANTICS OF HOMONYMS IN RUSSIAN-LANGUAGE TEXTS
(pp. 32-38)

Abstract. The phenomenon of homonymy can be found in many natural languages. Its essence consists in the sound coincidence of various linguistic units that have unrelated concepts. The presence of homonyms in the text can become an obstacle to its correct computer processing. Therefore, currently, the removal of homonymy is often considered as a separate stage of text analysis in machine translation tasks, extracting the main semantic content from information, improving the accuracy of query processing, and others. The process of automatic detection of homonyms, as well as determining their semantic meaning, is an important task in the field of artificial intelligence. A person is able to define homonymy based on context. The rules for computer processing of texts containing homonyms are based on a similar approach, that is, first a search for a homonymous word takes place, and then its semantics is predicted according to a given context. The most urgent task of removing homonymy is for languages with complex word formation and inflection, including the Russian language. The article discusses the use of neural networks for processing Russian-language text in order to determine the semantic meaning of homonyms. To solve this problem, a special neural network architecture was created, a dataset from texts from the National Corpus of the Russian Language website was collected and marked up, and special data preprocessing (tokenization and lemmatization) was carried out. The resolution of homonymy in this case boils down to the task of classification. The trained network showed acceptable recognition accuracy on test examples.

Keywords: Neural networks; Automatic natural language processing; Text analysis; Problem of homonymy.

Рус

С. А. Никитина, А. А. Корзунина (Челябинский государственный университет, Челябинск, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Eng

S. A. Nikitina, A. A. Korzunina (Chelyabinsk State University, Chelyabinsk, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Рус

1. Национальный корпус русского языка [Электронный ресурс]. URL: http://www.ruscorpora.ru/ (дата обращения: 12.07.2024).
2. Нгуен Н. З., Ле М. Х. Нейросетевой метод снятия омонимии // Труды МФТИ. 2015. Т. 7, № 4(28). С. 174–182.
3. Порохнин А. А. Анализ статистических методов снятия омонимии в текстах на русском языке // Вестник Астраханского государственного технического университета. Управление, вычислительная техника и информатика. 2013. № 2. С. 168–174.
4. Рысаков С. В., Клышинский Э. С. Статистические методы снятия омонимии // Новые информационные технологии в автоматизированных системах. 2015. № 18. С. 555–563.
5. Рогов А. А., Рогова О. Б. Математическая модель для определения грамматических признаков в случае омонимии // Цифровые технологии в образовании, науке, обществе: Материалы XII всероссийской научно-практической конференции. 04–06 декабря 2018 г. Петрозаводск, Россия. Петрозаводск: Петрозаводский государственный университет, 2018. С. 196–198.
6. Каневский Е. А., Боярский К. К. К вопросу о снятии омонимии при компьютерном анализе текстов // Проблемы преобразования и регулирования региональных социально-экономических систем / Под ред. С. В. Кузнецова. Т., Вып. 45. СПб: Санкт-Петербургский государственный университет аэрокосмического приборостроения, 2019. С. 37–41.
7. Большакова С. А. Ниценко А. В., Шелепов В. Ю. К вопросу об автоматическом снятии омонимии русских деепричастий // Проблемы искусственного интеллекта. 2021. № 4(23). С. 37–45.
8. Сапин А. С. Построение нейросетевых моделей морфологического и морфемного анализа текста // Труды Института системного программирования РАН. 2021. Т. 33, № 4. С. 117–130.
9. Разрешение омонимии при интерпретации речевых команд мобильным роботом / А. А. Котов, Н. А. Аринкин, Л. Я. Зайдельман и др. // Искусственный интеллект и принятие решений. 2022. № 4. С. 99–111.
10. NLTK. Natural Language Toolkit [Электронный ресурс]. URL: https://www.nltk.org/ (дата обращения: 12.07.2024).
11. word2vec Parameter Learning Explained [Электронный ресурс]. URL: https://arxiv.org/pdf/1411.2738 (дата обращения: 12.07.2024).
12. TensorFlow [Электронный ресурс]. URL: https://www.tensorflow.org/ (дата обращения: 12.07.2024).
13. Keras. Simple. Flexible. Powerful [Электронный ресурс]. URL: https://keras.io/. (дата обращения: 12.07.2024).

Eng

1. National Corpus of the Russian Language. Retrieved from http://www.ruscorpora.ru/ Accessed: 12.07.2024). [in Russian language]
2. Nguen N. Z., Le M. H. (2015). Neural network method for removing homonymy. Trudy MFTI, Vol. 7 28(4), 174 – 182. [in Russian language]
3. Porohnin A. A. (2013). Analysis of statistical methods for removing homonymy in texts in Russian. Vestnik Astrahanskogo gosudarstvennogo tekhnicheskogo universiteta. Upravlenie, vychislitel'naya tekhnika i informatika, (2), 168 – 174. [in Russian language]
4. Rysakov S. V., Klyshinskiy E. S. (2015). Statistical methods for removing homonymy. Novye informatsionnye tekhnologii v avtomatizirovannyh sistemah, 18, 555 – 563. [in Russian language]
5. Rogov A. A., Rogova O. B. (2018). Mathematical model for determining grammatical features in the case of homonymy. Digital technologies in education, science, society: Materials of the XII All-Russian scientific and practical conference, 196 – 198. Petrozavodsk: Petrozavodskiy gosudarstvenniy universitet. [in Russian language]
6. Kuznetsov S. V. (Ed.), Kanevskiy E. A., Boyarskiy K. K. (2019). On the issue of removing homonymy in computer analysis of texts. Problems of transformation and regulation of regional socio-economic systems, 45, 37 – 41. Saint Petersburg: Sankt-Peterburgskiy gosudarstvenniy universitet aerokosmicheskogo priborostroeniya. [in Russian language]
7. Bol'shakova S. A. Nitsenko A. V., Shelepov V. Yu. (2021). On the issue of automatic removal of homonymy of Russian gerunds. Problemy iskusstvennogo intellekta, 23(4), 37 – 45. [in Russian language]
8. Sapin A. S. (2021). Construction of neural network models for morphological and morphemic text analysis. Trudy Instituta sistemnogo programmirovaniya RAN, 33(4), 117 – 130. [in Russian language]
9. Kotov A. A., Arinkin N. A., Zaydel'man L. Ya. et al. (2022). Resolving homonymy when interpreting speech commands by a mobile robot. Iskusstvenniy intellekt i prinyatie resheniy, (4), 99 – 111. [in Russian language]
10. NLTK. Natural Language Toolkit. Retrieved from https://www.nltk.org/ (Accessed: 12.07.2024).
11. word2vec Parameter Learning Explained. Retrieved from https://arxiv.org/pdf/1411.2738 (Accessed: 12.07.2024).
12. TensorFlow. Retrieved from https://www.tensorflow.org/ (Accessed: 12.07.2024).
13. Keras. Simple. Flexible. Powerful. Retrieved from https://keras.io/ (Accessed: 12.07.2024).

Рус

Статью можно приобрести в электронном виде (PDF формат).

Стоимость статьи 700 руб. (в том числе НДС 20%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.

После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.

Для заказа скопируйте doi статьи:

10.14489/vkit.2025.02.pp.032-038

и заполните  форму 

Отправляя форму вы даете согласие на обработку персональных данных.

.

 

Eng

This article  is available in electronic format (PDF).

The cost of a single article is 700 rubles. (including VAT 20%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.

After depositing your payment on our bank account we send you file of the article by e-mail.

To order articles please copy the article doi:

10.14489/vkit.2025.02.pp.032-038

and fill out the  form  

 

.

 

 

 
Поиск
Баннер
Rambler's Top100 Яндекс цитирования