DOI: 10.14489/vkit.2020.03.pp.029-036

Вахромова Е. Ю., Бекетова И. В., Герасименко А. А., Горемычкин В. И., Кривошляпов В. П.
(c. 29-36)

Аннотация. Предложен алгоритм межъязыкового нечеткого поиска на основе хешвекторов для автоматического сопоставления именных групп, принципиальная особенность которого – отказ от прямого перевода именных групп. Использован механизм хеширования именных групп с последующим отображением их в одно и то же скрытое векторное пространство, где построены вычислительные процедуры системы принятия решения.

Ключевые слова:  персональные данные; нечеткий поиск; кластерный анализ; хеширование; векторное пространство; базы данных.


Vakhromova E. Yu., Beketova I. V., Gerasimenko A. A., Goremychkin V. I., Krivoshlyapov V. P.
(pp. 29-36)

Abstract. The algorithm of cross language fuzzy search based on hash vectors for automatic matching of personal names is proposed. In the response mode for an input request, names in Latin spelling and a given value for the similarity measure, the algorithm determines the set of output Cyrillic names contained in the database of the information search system. The principal feature of the proposed algorithm is the rejection of the direct translation of personal names. Instead, the hashing mechanism of personal names is used, followed by mapping them into the same hidden vector space where the computational procedures of the decision-making system are built. In the process of research, it was solved a number of actual intermediate tasks. Thus, the decomposition algorithms of the explored database, the generation and clustering of the dictionary of basic morphemes are an instrument that is of independent value in solving the problem of automatically translating names from a foreign language, the translation rules of which are unknown – the socalled generalized transcription. After mapping names into a vector space, the matching operation is reduced to assessing the similarity between vectors. As a measure of similarity, several quantities were considered in the study. The most convenient measure of similarity is the cosine similarity, the critical value of which was obtained by plotting the FMR (False Match Rate) and FNMR (False Non-Match Rate) graphs. The developed algorithm is universal with respect to the languages used, that is, it does not depend on a specific alphabet. In the practical implementation of the developed algorithm, a series of experimental studies was carried out using a database containing more than 2.5 million names.

Keywords: Personal data; Fuzzy search; Cluster analysis; Hashing; Vector space; Databases.


Е. Ю. Вахромова, И. В. Бекетова, А. А. Герасименко, В. И. Горемычкин, В. П. Кривошляпов (ФГУП «Государственный научно-исследовательский институт авиационных систем» ГНЦ РФ, Москва, Россия)  


E. Yu. Vakhromova, I. V. Beketova, A. A. Gerasimenko, V. I. Goremychkin, V. P. Krivoshlyapov (State Research Institute of Aviation Systems State Scientific Center of Russian Federation, Moscow, Russia)  


1. Математические модели систем транскрипции фамильноименных групп / А. В. Бондаренко и др. // Изв. РАН. Теория и системы управления. 2016. № 4. С. 73 – 82. doi: 10.7868/S000233881604003X
2. Бойцов Л. М. Классификация и исследование современных алгоритмов нечеткого словарного поиска [Электронный ресурс] // Электронные библиотеки: перспективные методы и технологии, электронные коллекции (RCDL 2004): тр. 6-й Всерос. науч. конф. / Институт математических проблем биологии РАН. Пущино, Россия, 29 сент. – 1 окт. 2004. URL: http://rcdl.ru/doc/2004/paper27.pdf (дата обращения: 01.02.2020).
3. Сметанин Н. Нечеткий поиск в тексте и словаре [Электронный ресурс] // Алгоритмы. 9 марта 2011. URL: http://habrahabr.ru/post/114997/ (дата обращения: 01.02.2020).
4. Практическая транскрипция личных имен в языках народов мира / С. Н. Аминева и др.; отв. ред. Э. С. Клышинский. М.: Наука, 2010. 679 с.


1. Bondarenko A. V. et al. (2016). Mathematical models of transcription systems of family-name groups. Izvestiya RAN. Teoriya i sistemy upravleniya, (4), pp. 73 – 82. [in Russian language] doi: 10.7868/ S000233881604003X
2. Boytsov L. M. (2004). Classification and research of modern fuzzy dictionary search algorithms. Digital Libraries: Advanced Techniques and Technologies, Electronic Collections (RCDL 2004): proceedings of the 6th All-Russian Scientific Conference. Institute of Mathematical Problems of Biology RAS. Pushchino. Available at: http://rcdl.ru/doc/2004/paper27.pdf (Accessed: 01.02.2020) [in Russian language]
3. Smetanin N. (2011). Fuzzy search in text and dictionary. Algorithms. Available at: http://habrahabr.ru/post/114997/ (Accessed: 01.02.2020). [in Russian language]
4. Klyshinskiy E. S. (Ed.), Amineva S. N. et al. (2010). Practical transcription of personal names in the languages of the peoples of the world. Moscow: Nauka. [in Russian language]


