DOI: 10.14489/vkit.2025.02.pp.003-014
Худяков А. М. ПРОГРЕССИВНАЯ МЕТОДИКА В ИДЕНТИФИКАЦИИ ТЕКСТОВЫХ ИНФОРМАЦИОННЫХ ОБЪЕКТОВ (c. 3-14)
Аннотация. В статье исследуется задача идентификации текстовых информационных объектов с использованием метода редактирования Дамерау–Левенштейна. Этот метод применим к весовым вероятностям искажений в компонентах персональных данных физических лиц. Было показано, что данная задача относится к классу некорректно поставленных задач. Для ее решения был предложен метод регуляризации, который учитывает априорную информацию о вероятности появления искажений в описании атрибутов идентифицируемых объектов. Статистическими методами были составлены таблицы оценок вероятностных весов искажений. Рассмотрены сравнительные примеры использования предложенного подсчета значений похожести персональных данных в задаче идентификации личности и выбраны наиболее эффективные.
Ключевые слова: последовательности символов; нечеткий поиск; расстояние Дамерау–Левенштейна; идентификация; регуляризация; вероятностные веса искажений; относительные веса искажений; суммирование вероятностей.
Khudyakov A. M. A PROGRESSIVE TECHNIQUE IN THE IDENTIFICATION OF TEXTUAL INFORMATION OBJECTS (pp. 3-14)
Abstract. The article examines the problem of identifying information objects represented by numerical and symbolic sequences using the method of determining the minimum editorial distance of Damerau–Levenstein. This method is reduced to a general form, which uses weighted probabilities of distortions in the components of personal data of individuals. It was shown that this task belongs to the class of incorrectly set tasks. To solve it, a method was proposed for calculating the similarity values of messages with personal data of individuals using regularization, which takes into account a priori information about the probability of distortions in the description of attributes of identifiable objects. Along with this, other methods of carrying out such calculations were proposed and the most effective ones were selected based on comparative examples. For correct calculations using statistical methods, tables were compiled with the values of the distortions probability weights that were used in the applied formulas. In order to maximize the completeness of the search for personal data of individuals, a dictionary of synonyms of names of a sufficiently large volume was compiled and used. In the process of searching for the necessary information about the personal data of individuals, as a result of identification through databases, a fairly large final information noise with corresponding messages arises. To exclude it, a developed volumetric dictionary of paronyms of names is used, which is a kind of information filter. All this has increased the efficiency of operators in making decisions in the process of searching for the necessary data in large amounts of information.
Keywords: Character sequences; Fuzzy search; Damerau–Levenshtein distance; Identification; Regularization; Probability weights of distortions; Relative weights of distortions; Summation of probabilities.
А. М. Худяков (Филиал федерального автономного учреждения «Государственный научно-исследовательский институт авиационных систем» Центр обработки документов, Москва, Россия) E-mail:
Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
A. M. Khudyakov (branch of the FEDERAL AUTONOMOUS INSTITUTION “STATE SCIENTIFIC RESEARCH INSTITUTE OF AVIATION SYSTEMS” DATA PROCESSING CENTER, Moscow, Russia) E-mail:
Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
1. Aditya Chatterjee. Damerau Levenshtein distance [Электронный ресурс]. URL: https://iq.opengenus.org/damerau-levenshtein-distance/ (дата обращения: 05.11.2024). 2. Demo2s.com: сайт. Как реализовать алгоритм Левенштейна в Java? [Электронный ресурс]. URL: https://www.demo2s.com/g/java/how-to-inplement-levenshtein-algorithm-in-java.htm (дата обращения: 05.11.2024). 3. Левенштейн В. И. Двоичные коды с исправлением выпадений, вставок и замещений символов // Докл. Академии наук СССР. 1965. Т. 163, № 4. С. 845–848. 4. Scmax.ru: сайт. Вычисление расстояния Левенштейна, допускающего ошибки QWERTY в R [Электронный ресурс]. URL: https://scmax.ru/questions/43946912/ (дата обращения: 05.11.2024). 5. Давыдова Ю. В. Модель ошибок для нечеткого поиска в задаче мониторинга виртуальных социальных сетей для обеспечения информационно-психологической безопасности личности [Электронный ресурс]. URL: https://cyberleninka.ru/article/n/model-oshibok-dlya-nechetkogo-tekstovogo-poiska-v-zadache-monitoringa-virtualnyh-sotsialnyh-setey-dlya-obespecheniya-informatsionno/viewer (дата обращения: 01.11.2024). 6. Попцова М. Майнор по биоинформатике. URL: https://drive.google.com/file/d/1QJo71NnlXMOVm933a2B9NIkercAQTtLz/view (дата обращения: 15.01.2025). 7. DNK-test.com.ua: сайт. Интересные факты о ДНК человека (дата обращения: 01.11.2024). 8. DNK-test.com.ua: сайт. 12 методов в картинках: секвенирование нуклеиновых кислот / А. Недолужко. URL: https://dnk-test.com.ua: сайт (дата обращения: 30.10.2024). 9. Gastack.ru: сайт. Представляет ли обратная вероятность что-либо (дата обращения: 30.10.2024). 10. Карпентер Дж. Взвешивание обратной вероятности [Электронный ресурс]. URL: https://wiki5.ru/wiki/Inverse_probability_weighting (дата обращения: 30.10.2024). 11. Голицына О. Л., Максимов Н. В., Окропишина О. В., Строгонов В. И. Онтологический подход к идентификации информации в задачах документального поиска // НТИ. Сер. 2. 2012. № 5. С. 1–9. 12. Романов А. А., Бутусов И. В. Метод анализа информационных описаний компьютерных атак в автоматизированных информационных системах // Приборы и системы. Управление, контроль, диагностика. Автоматизированные системы управления. 2020. № 11. С. 1–7. 13. Яцко В. А. Алгоритмы распознавания собственных имен // НТИ. Сер. 2. 2013. № 5. С. 34–39. 14. Гершкович М. М., Бирюкова Т. К. Задачи идентификации информационных объектов в распределенных массивах данных // Системы и средства информатики. 2014. Т. 24, вып. 1. С. 224–243. https://doi.org/10.14357/08696527140114 15. Ягола А. Г. Некорректные задачи с априорной информацией // Сибирские электронные математические известия. 2010. Т. 7. С. 343–361. 16. Васин В. В., Агеев А. Л. Некорректные задачи с априорной информацией. Екатеринбург: УИФ «Наука», 1993. 264 с. [Электронный ресурс]. URL: https://bookree.org/reader?file=578496&pg=5 (дата обращения: 06.11.2024). 17. Ольховой А. Ф. Обратные некорректные задачи. Введение в проблематику. Таганрог: ТТИ ЮФУ, 2009. 131 с. 18. Suyatinov S. I. Procedure for Constructing Soft Models of Complex Systems by Time Series // Bulletin of the South Ural State University. Ser. Mathematical Modelling, Programming & Computer Software (Bulletin SUSU MMCS). 2019. V. 12, No. 4. P. 82–94. DOI: 10.14529/mmp190406 19. Булдакова Т. И., Суятинов С. И. Разработка адекватных моделей в технологии цифровых двойников // Автоматизация. Современные технологии. 2019. № 8. С. 367–373. 20. Сумин М. И. Метод регуляризации А. Н. Тихонова для решения операторных уравнений первого рода: учеб.-метод. пособие. Нижний Новгород: Нижегородский государственный университет, 2016. 56 с. [Электронный ресурс]. URL: https://ru.abcdef.wiki/wiki/Complementarity_(molecular_biology) (дата обращения: 01.11.2024). 21. Igamberdiyev H. Z., Sevinov J. U. The Dynamic Systems Adaptive Identification Algorithms on the Basis of the Regularity Principle // International Journal of Emerging Technology and Advanced Engineering. July 2015. V. 5, Is. 7. P. 365–369. 22. A temperature field reconstruction method for debonding defect identification in laminated structures / T. T. Wu, C. Zhang, H. L. Ji et al. // Journal of Physics: Conference Series. 2021. V. 2184. DOI: 10.1088/1742-6596/2184/1/012050 23. Бурлай И. В., Посупонько Н. В., Кондранин Е. А. Регуляризованный алгоритм идентификации параметров динамических систем // Техника машиностроения. 2006. №1 (57). С. 23–29. 24. Гмурман В. Е. Теория вероятностей и математическая статистика М.: Высш.шк., 2003. 25. Вентцель Е. С. Теория вероятностей: учеб. 10-е изд., стер. М.: Высш.шк., 2006. 575с. 26. PPT-online.org: §2.2. Теорема сложения вероятностей совместных событий [Электронный ресурс]. URL: https://ppt-online.org/259357?ysclid-m5wicnohnu365779473/teorema-slozheniya-veroyatnostej-sovmestnyx-sobytij (дата обращения: 06.11.2024). 27. Использование словаря синонимов именных компонент в информационно-поисковых системах / А. М. Худяков, И. В. Бекетова, Н. Б. Богуш и др. // Вестник компьютерных и информационных технологий. 2024. Т. 21, № 5. С. 3–13. 28. Использование словаря паронимов именных компонент для идентификации персональных данных / А. М. Худяков, И. В. Бекетова, Н. Б. Богуши др. // Вестник компьютерных и информационных технологий. 2024. Т. 21, № 6. С. 3–13. 29. Бондаренко А. В., Визильтер Ю. В., Клышинский Э. С., Силаев Н. Ж. Нечеткий поиск именных групп с использованием lk-представлений [Электронный ресурс]. URL: https://cyberleninka.ru/article/n/nechetkiy-poisk-imennyh-grupp-s-ispolzovaniem-lk-predstavleniy (дата обращения: 06.11.2024).
1. Aditya Chatterjee. Damerau Levenshtein distance. Retrieved from https://iq.opengenus.org/damerau-levenshtein-distance/ (Accessed: 05.11.2024). 2. How to implement Levenshtein algorithm in Java? Retrieved from https://www.demo2s.com/g/java/how-to-inplement-levenshtein-algorithm-in-java.htm (Accessed: 05.11.2024). 3. Levenshteyn V. I. (1965). Binary codes with correction of deletions, insertions and substitutions of characters. Doklady Akademii nauk, 163(4), 845 – 848. [in Russian language] 4. Calculating Levenshtein distance tolerant of QWERTY errors in R. Retrieved from https://scmax.ru/questions/43946912/ (Accessed: 05.11.2024). [in Russian language] 5. Davydova Yu. V. Error model for fuzzy search in the problem of monitoring virtual social networks to ensure information and psychological security of the individual. Retrieved from https://cyberleninka.ru/article/n/model-oshibok-dlya-nechetkogo-tekstovogo-poiska-v-zadache-monitoringa-virtualnyh-sotsialnyh-setey-dlya-obespecheniya-informatsionno/viewer (Accessed: 01.11.2024). [in Russian language] 6. Poptsova M. Minor in Bioinformatics. Retrieved from https://drive.google.com/file/d/1QJo71NnlXMOVm933a2B9NIkercAQTtLz/view (Accessed: 15.01.2025). [in Russian language] 7. Interesting facts about human DNA. Retrieved from https://dnk-test.com.ua/ (Accessed: 01.11.2024). [in Russian language] 8. Nedoluzhko A. 12 Methods in Pictures: Nucleic Acid Sequencing. Retrieved from https://dnk-test.com.ua/ (Accessed: 30.10.2024). [in Russian language] 9. Does reverse probability represent anything? Retrieved from Gastack.ru (Accessed: 30.10.2024). [in Russian language] 10. Karpenter Dzh. Weighing the inverse probability. Retrieved from https://wiki5.ru/wiki/Inverse_probability_weighting (Accessed: 30.10.2024). [in Russian language] 11. Golitsyna O. L., Maksimov N. V., Okropishina O. V., Strogonov V. I. (2012). Ontological approach to information identification in document search tasks. NTI. Seriya 2, (5), 1 – 9. [in Russian language] 12. Romanov A. A., Butusov I. V. (2020). Method for analyzing information descriptions of computer attacks in automated information systems. Pribory i sistemy. Upravlenie, kontrol', diagnostika. Avtomatizirovannye sistemy upravleniya, (11), 1 – 7. [in Russian language] 13. Yatsko V. A. (2013). Algorithms for recognizing proper names. NTI. Seriya 2, (5), 34 – 39. [in Russian language] 14. Gershkovich M. M., Biryukova T. K. (2014). Problems of identifying information objects in distributed data arrays. Sistemy i sredstva informatiki, 24(1), 224 – 243. Retrieved from https://doi.org/10.14357/08696527140114 [in Russian language] 15. Yagola A. G. (2010). Ill-posed problems with a priori information. Sibirskie elektronnye matematicheskie izvestiya, 7, 343 – 361. [in Russian language] 16. Vasin V. V., Ageev A. L. (1993). Ill-posed problems with a priori information. Ekaterinburg: UIF «Nauka». Retrieved from https://bookree.org/reader?file=578496&pg=5 (Accessed: 06.11.2024). [in Russian language] 17. Ol'hovoy A. F. (2009). Inverse ill-posed problems. Introduction to the problem. Taganrog: TTI YuFU. [in Russian language] 18. Suyatinov S. I. (2019). Procedure for Constructing Soft Models of Complex Systems by Time Series. Bulletin of the South Ural State University. Series Mathematical Modelling, Programming & Computer Software (Bulletin SUSU MMCS), 12(4), 82 – 94. DOI: 10.14529/mmp190406 19. Buldakova T. I., Suyatinov S. I. (2019). Development of adequate models in digital twin technology. Avtomatizatsiya. Sovremennye tekhnologii, (8), 367 – 373. [in Russian language] 20. Sumin M. I. (2016). A. N. Tikhonov’s regularization method for solving operator equations of the first kind: educational textbook. Nizhniy Novgorod: Nizhegorodskiy gosudarstvenniy universitet. Retrieved from https://ru.abcdef.wiki/wiki/Complementarity_(molecular_biology) (Accessed: 01.11.2024). [in Russian language] 21. Igamberdiyev H. Z., Sevinov J. U. (2015). The Dynamic Systems Adaptive Identification Algorithms on the Basis of the Regularity Principle. International Journal of Emerging Technology and Advanced Engineering, 5(7), 365 – 369. 22. Wu T. T., Zhang C., Ji H. L. et al. (2021). A temperature field reconstruction method for debonding defect identification in laminated structures. Journal of Physics: Conference Series, 2184. DOI: 10.1088/1742-6596/2184/1/012050 23. Burlay I. V., Posupon'ko N. V., Kondranin E. A. (2006). Regularized algorithm for identifying parameters of dynamic systems. Tekhnika mashinostroeniya, 57(1), 23 – 29. [in Russian language] 24. Gmurman V. E. (2003). Probability theory and mathematical statistics. Moscow: Vysshaya shkola. [in Russian language] 25. Venttsel' E. S. (2006). Probability theory: textbook. 10th ed. Moscow: Vysshaya shkola. [in Russian language] 26. Theorem for adding probabilities of joint events. Retrieved from https://ppt-online.org/259357?ysclid-m5wicnohnu365779473/teorema-slozheniya-veroyatnostej-sovmestnyx-sobytij: §2.2. (Accessed: 06.11.2024). [in Russian language] 27. Hudyakov A. M., Beketova I. V., Bogush N. B. et al. (2024). The use of a dictionary of synonyms for names components in information retrieval systems. Vestnik komp'yuternyh i informatsionnyh tekhnologiy, 21(5), 3 – 13. [in Russian language] DOI: 10.14489/vkit.2024.05.pp.003-013 28. Hudyakov A. M., Beketova I. V., Bogushi N. B. et al. (2024). Using a dictionary of paronyms for personal names components to identify personal data. Vestnik komp'yuternyh i informatsionnyh tekhnologiy, 21(6), 3 – 13. [in Russian language] DOI: 10.14489/vkit.2024.06.pp.003-013 29. Bondarenko A. V., Vizil'ter Yu. V., Klyshinskiy E. S., Silaev N. Zh. Fuzzy noun phrase search using lk representations. Retrieved from https://cyberleninka.ru/article/n/nechetkiy-poisk-imennyh-grupp-s-ispolzovaniem-lk-predstavleniy (Accessed: 06.11.2024). [in Russian language]
Статью можно приобрести в электронном виде (PDF формат).
Стоимость статьи 700 руб. (в том числе НДС 20%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.
После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.
Для заказа скопируйте doi статьи:
10.14489/vkit.2025.02.pp.003-014
и заполните форму
Отправляя форму вы даете согласие на обработку персональных данных.
.
This article is available in electronic format (PDF).
The cost of a single article is 700 rubles. (including VAT 20%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.
After depositing your payment on our bank account we send you file of the article by e-mail.
To order articles please copy the article doi:
10.14489/vkit.2025.02.pp.003-014
and fill out the form
.
|