DOI: 10.14489/vkit.2024.06.pp.003-013
Бекетова И. В., Герасименко А. А., Горемычкин В. И., Худяков А. М., Богуш Н. Б. ИСПОЛЬЗОВАНИЕ СЛОВАРЯ ПАРОНИМОВ ИМЕННЫХ КОМПОНЕНТ ДЛЯ ИДЕНТИФИКАЦИИ ПЕРСОНАЛЬНЫХ ДАННЫХ (c.3-13)
Аннотация. Впервые проблема сокращения информационного шума в выходном сообщении информационно-поисковых систем решена с помощью информационного фильтра на основе словаря паронимов именных компонент. Применительно к именным компонентам паронимами считаются те именные компоненты, которые удовлетворяют критериям похожести информационно-поисковой системы, но различаются по значению и смыслу (имеют отношение к разным физическим лицам). Структурообразующим элементом такого информационного фильтра является словарь паронимов именных компонент. При составлении словаря паронимов использовался механизм категоризации паронимов именных компонент в зависимости от количества искаженных символов. Предложенный подход к снижению информационной энтропии в зависимости от категории и числа паронимов именных компонент в фамильно-именных группах можно применить не только для информационного поиска по фамильно-именным группам, но и в широком смысле – для часто используемых в запросах текстовых данных, которые подвержены различным искажениям.
Ключевые слова: идентификация; нечеткий поиск; именная компонента; словарь синонимов; словарь паронимов; база данных.
Beketova I. V., Gerasimenko A. A., Goremychkin V. I., Khudyakov A. M., Bogush N. B. USING A DICTIONARY OF PARONYMS FOR PERSONAL NAMES COMPONENTS TO IDENTIFY PERSONAL DATA (pp.3-13)
Abstract. The use of fuzzy search methods when identifying input messages inevitably leads to the appearance of quite a lot of information noise in the output data. It is proposed to solve the current problem of cutting off information noise in the output data by analyzing the results of a fuzzy search using a dictionary of paronyms for nominal components. In relation to nominal components, paronyms are those nominal components that, on the one hand, satisfy the criteria of similarity of an information retrieval system, but, in fact, differ in meaning (they relate to completely different individuals). For the first time, the problem of reducing information noise in the output message of information retrieval systems was solved using an information filter, the structure-forming element of which is a dictionary of paronyms of nominal components. When compiling a dictionary of paronyms, a mechanism was used to categorize paronyms of nominal components depending on the number of distorted characters. The proposed approach to reducing information entropy depending on the category and number of paronyms of nominal components in family-name groups can be applied not only for information search by family-name groups, but also in a broad sense – for text data frequently used in queries, which are subject to various distortions.
Keywords: Identification; Fuzzy search; Personal name component; Synonym dictionary; Paronym dictionary; Database.
И. В. Бекетова, А. А. Герасименко, В. И. Горемычкин, А. М. Худяков (филиал ФАУ «Государственный научно-исследовательский институт авиационных систем «Центр обработки документов», Москва, Россия), Н. Б. Богуш (Российский технологический университет – МИРЭА, Москва, Россия) E-mail:
Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
I. V. Beketova, A. A. Gerasimenko, V. I. Goremychkin, A. M. Khudyakov (FAA GosNIIAS, Moscow, Russia) N. B. Bogush (MIREA, Moscow, Russia) E-mail:
Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
1. Рубинчик Л. И. Что такое паронимы? Примеры [Электронный ресурс]. URL: https://russkiiyazyk.ru/leksika/chto-takoe-paronimyi-primeryi.html (дата обращения: 05.12.2023). 2. Введенская Л. А., Колесников Н. П. Учебный словарь паронимов русского языка. Ростов-на-Дону: Март, 2005. 189 с. 3. Мизинина И. Словарь паронимов английского языка (Не путайте похожие слова!): словарь-справочник. М.: ООО Н-ПРО, 2015. 41 c. 4. Словарь паронимов русского языка [Электронный ресурс]. URL: https://gufo.me/dict/paronyms (дата обращения: 05.12.2023). 5. Chatterjee A. Damerau Levenshtein Distance. [Электронный ресурс]. URL: https://iq.opengenus.org/damerau-levenshtein-distance/ (дата обращения: 07.12.2023). 6. Расстояние Дамерау–Левенштейна [Электронный ресурс]. URL: https://wikichi.ru/wiki/Damerau%E2%80%93Levenshtein_distance (дата обращения: 07.12.2023). 7. Бондаренко А. В., Горемычкин В. И., Галактионов В. А., Клышинский Э. С. Практическая транскрипция личных имен в языках народов мира. М.: Наука, 2010. 679 с. 8. Логачева В. К. Исследование и разработка методов автоматизации процессов практической транскрипции имен собственных: специальность: 05.13.11: дис. … канд. физ.-мат. наук / Логачева Варвара Константиновна; Институт прикладной математики им. М. В. Келдыша РАН. Москва, 2013. 132 с. 9. Бондаренко А. В., Герасименко А. А. Об одном алгоритме нечеткого поиска именных компонент в специализированных базах данных // Вестник компьютерных и информационных технологий. 2005. № 8(12). С. 29–34. 10. Давыдова Ю. В. Модель ошибок для нечеткого поиска в задаче мониторинга виртуальных социальных сетей для обеспечения информационно-психологической безопасности личности [Электронный ресурс]. URL: https://cyberleninka.ru/article/n/model-oshibok-dlya-nechetkogo-tekstovogo-poiska-v-zadache-monitoringa-virtualnyh-sotsialnyh-setey-dlya-obespecheniya-informatsionno/viewer (дата обращения: 07.12.2023). 11. Сметанин Н. Нечеткий поиск в тексте и словаре [Электронный ресурс]. URL: http://habrahabr.ru/post/114997/ (дата обращения: 07.12.2023). 12. Гмурман В. Е. Теория вероятностей и математическая статистика. М.: Высш. шк., 2003. 13. Вентцель Е. С. Теория вероятностей: учеб. для вузов. 10-е изд., стер. М.: Высш. шк., 2006. 575 с. 14. Таранов И. С. Использование префиксного дерева для хранения и поиска строк во внешней памяти // Тр. Института системного программирования РАН. 2011. С. 283–296.
1. Rubinchik L. I. (2023). What are paronyms? Examples. Retrieved from https://russkiiyazyk.ru/leksika/chto-takoe-paronimyi-primeryi.html (Accessed: 05.12.2023). [in Russian language] 2. Vvedenskaya L. A., Kolesnikov N. P. (2005). Educational dictionary of paronyms of the Russian language. Rostov-na-Donu: Mart. [in Russian language] 3. Mizinina I. (2015). Dictionary of English paronyms (Do not confuse similar words!): Dictionary-handbook. Moscow: OOO N-PRO. [in Russian language] 4. Dictionary of paronyms of the Russian language. Retrieved from https://gufo.me/dict/paronyms (Accessed: 05.12.2023). [in Russian language] 5. Chatterjee A. Damerau Levenshtein distance. Retrieved from https://iq.opengenus.org/damerau-levensh-tein-distance/ (Accessed: 07.12.2023). 6. Damerau–Levenshtein distance. Retrieved from https://wikichi.ru/wiki/Damerau%E2%80%93Levenshtein_distance (Accessed: 07.12.2023). [in Russian language] 7. Bondarenko A. V., Goremychkin V. I., Galaktionov V. A., Klyshinskiy E. S. (2010). Practical transcription of personal names in the languages of the peoples of the world. Moscow: Nauka. [in Russian language] 8. Logacheva V. K. (2013). Research and development of methods for automating the processes of practical transcription of proper names: Specialty: 05.13.11. Moscow: Institut prikladnoy matematiki im. M. V. Keldysha RAN. [in Russian language] 9. Bondarenko A. V., Gerasimenko A. A. (2005). About one algorithm for fuzzy search of named components in specialized databases. Vestnik komp'yuternyh i informatsionnyh tekhnologiy, 12(8), 29 – 34. [in Russian language] 10. Davydova Yu. V. Error model for fuzzy search in the problem of monitoring virtual social networks to ensure information and psychological security of the individual. Retrieved from https://cyberleninka.ru/article/n/model-oshibok-dlya-nechetkogo-tekstovogo-poiska-v-zadache-monitoringa-virtualnyh-sotsialnyh-setey-dlya-obespecheniya-informatsionno/viewer (Accessed: 07.12.2023). [in Russian language] 11. Smetanin N. Fuzzy search in text and dictionary. Retrieved from http://habrahabr.ru/post/114997/ (Accessed: 07.12.2023). [in Russian language] 12. Gmurman V. E. (2003). Theory of Probability and Mathematical Statistics. Moscow: Vysshaya shkola. [in Russian language] 13. Venttsel' E. S. (2006). Probability theory: textbook for universities. 10th ed. Moscow: Vysshaya shkola. [in Russian language] 14. Taranov I. S. (2011). Using a prefix tree to store and search strings in external memory. Trudy instituta sistemnogo programmirovaniya RAN, 283 – 296. [in Russian language]
Статью можно приобрести в электронном виде (PDF формат).
Стоимость статьи 500 руб. (в том числе НДС 20%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.
После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.
Для заказа скопируйте doi статьи:
10.14489/vkit.2024.06.pp.003-013
и заполните форму
Отправляя форму вы даете согласие на обработку персональных данных.
.
This article is available in electronic format (PDF).
The cost of a single article is 500 rubles. (including VAT 20%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.
After depositing your payment on our bank account we send you file of the article by e-mail.
To order articles please copy the article doi:
10.14489/vkit.2024.06.pp.003-013
and fill out the form
.
|