DOI: 10.14489/vkit.2015.09.pp.041-048

Зелепухина В. А.
(с. 41-48)

Аннотация. Рассмотрена проблема многозначности в именах авторов научных публикаций как задача классификации. Для построения классификационной модели использована машина опорных векторов. Показано, что включение в состав признаков научного направления, к которому относится публикация, существенно увеличивает точность классификации. Для идентификации научного направления применен наивный байесовский классификатор.

Ключевые слова:  разрешение многозначности; связывание данных; метаданные; машинное обучение; класси-фикация; метод опорных векторов.


Zelepukhina V. A.
(pp. 41-48)

Abstract. This paper addresses the problem of author name disambiguation in academic publications. The ambiguity in authors names may occur when multiple authors share a common name or when authors use different name variations. Also, the ambiguity occurs in the metadata of articles by Russian scientists, published in English. And this problem is related to different rules of transliteration. The problem is intensifies when metadata of the publications is collected from different sources. Furthermore, the metadata may be incomplete or contain errors. The problem is typical for digital libraries, bibliographical databases, current research information systems, academic networks, information retrieval etc. The mechanism proposed in this article uses fuzzy comparison of the names, extracting information about shared co-authors, identifi-cation and comparison research area of the publications. All these features are used by binary classifier based on support vector machine. The information about research area we automatically extract using naive bayes classifier. The nomenclature of scientific specialties was taken as a test set. The experimental results show that the quality of name disambiguation depends on the number of features used in the classification model. The algorithm should not only be based on a comparison of the last names and first initials of authors. When the information about research area is excluded from features, the accuracy of the method is reduced.

Keywords: Disambiguation; Data linkage; Metadata; Machine learning; Classification; Support vector machine.


В. А. Зелепухина (Астраханский государственный университет) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  


V. A. Zelepukhina (Astrakhan State University) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  


