| Русский Русский | English English |
   
Главная Архив номеров
19 | 04 | 2024
10.14489/vkit.2015.09.pp.041-048

DOI: 10.14489/vkit.2015.09.pp.041-048

Зелепухина В. А.
РАЗРЕШЕНИЕ МНОГОЗНАЧНОСТИ В ИМЕНАХ АВТОРОВ НАУЧНЫХ ПУБЛИКАЦИЙ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ
(с. 41-48)

Аннотация. Рассмотрена проблема многозначности в именах авторов научных публикаций как задача классификации. Для построения классификационной модели использована машина опорных векторов. Показано, что включение в состав признаков научного направления, к которому относится публикация, существенно увеличивает точность классификации. Для идентификации научного направления применен наивный байесовский классификатор.

Ключевые слова:  разрешение многозначности; связывание данных; метаданные; машинное обучение; класси-фикация; метод опорных векторов.

 

Zelepukhina V. A.
AUTHOR NAME DISAMBIGUATION IN ACADEMIC PUBLICATIONS USING METHODS OF MACHINE LEARNING
(pp. 41-48)

Abstract. This paper addresses the problem of author name disambiguation in academic publications. The ambiguity in authors names may occur when multiple authors share a common name or when authors use different name variations. Also, the ambiguity occurs in the metadata of articles by Russian scientists, published in English. And this problem is related to different rules of transliteration. The problem is intensifies when metadata of the publications is collected from different sources. Furthermore, the metadata may be incomplete or contain errors. The problem is typical for digital libraries, bibliographical databases, current research information systems, academic networks, information retrieval etc. The mechanism proposed in this article uses fuzzy comparison of the names, extracting information about shared co-authors, identifi-cation and comparison research area of the publications. All these features are used by binary classifier based on support vector machine. The information about research area we automatically extract using naive bayes classifier. The nomenclature of scientific specialties was taken as a test set. The experimental results show that the quality of name disambiguation depends on the number of features used in the classification model. The algorithm should not only be based on a comparison of the last names and first initials of authors. When the information about research area is excluded from features, the accuracy of the method is reduced.

Keywords: Disambiguation; Data linkage; Metadata; Machine learning; Classification; Support vector machine.

Рус

В. А. Зелепухина (Астраханский государственный университет) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Eng

V. A. Zelepukhina (Astrakhan State University) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Рус

1. Зелепухина В. А., Тарасевич Ю. Ю. Концепция информационно-аналитической системы для сбора и анализа научной и наукометрической информации в организации // Информатизация образования и науки. 2013. № 2. С. 133 – 144.
2. Зелепухина В. А. Проблема достоверности и объективности информации внутри научного интернет-сообщества, построенного на принципах Web 2.0 // Прикаспийский журнал: управление и высокие техноло-гии. 2013. № 4. С. 157 – 164.
3. Опыт идентификации персон для CRIS-систем / А. А. Князева и др. // Электронные библиотеки: перспективные методы и технологии, электронные коллекции (RCDL’2014): тр. 16-й Всерос. науч. конф., Дубна, 13 – 16 окт. 2014 г. Дубна, 2014. С. 207 – 213.
4. Афонин С. А., Гаспарянц А. Э. Разрешение неоднозначности авторства публикаций при автоматической обработке библиографических данных // Программная инженерия. 2014. № 1. С. 25 – 28.
5. Коляда А. С., Гогунский В. Д. Достоверность идентификации авторства научных публикаций на осно-ве латентно-семантического анализа // Восточно-Европейский журнал передовых технологий. 2014. Т. 3, № 2. С. 36 – 40.
6. Treeratpituk P., Giles C. L. Disambiguating Authors in Academic Publications Using Random Forests // Proc. of the 9th ACM/IEEE-CS Joint Conf. on Digital Libraries (JCDL’09). June 15 – 19, 2009. Austin, Texas, USA. P. 39 – 48.
7. Breiman L. Random Forests // Machine Learning. 2001. V. 45, № 1. P. 5 – 32.
8. Detecting Ambiguous Author Names in Crowdsourced Scholarly Data / X. Sun et al. // Privacy, Se-curity, Risk and Trust (PASSAT), IEEE 3rd Intern. Conf. on Social Computing. Boston, MA, USA, 9 – 11 Oct. 2011. P. 568 – 571.
9. Wang X., Tang J., Cheng H. Active Name Disambiguation // Proc. of the 11th Intern. Conf. on Data Mining (ICDM’11). 2011. P. 794 – 803.
10. Efficient Topic-Based Un-Supervised Name Disambiguation / Y. Song et al. // Proc. of the 7th ACM / IEEE-CS Joint Conference on Digital Libraries (JCDL’07). 2007. P. 342 – 351.
11. Generative Models for Name Disambiguation / Y. Song et al. // 16th Intern. Conf. on World Wide Web (WWW’2007). 2007. P. 1163 – 1164.
12. Science.ASPU.ru. Астраханский государственный университет. Научная деятельность: офиц. сайт. URL: http://science.aspu.ru (дата обращения: 20.09.2014).
13. Whittaker J., Courtial J. P., Law J. Creativity and Conformity in Science: Titles, Keywords and Co-Word Analysis // Social Studies of Science. 1989. V. 19, № 3. P. 473 – 496. DOI: 10.1177/030631289019003004.

Eng

1. Zelepukhina V. A., Tarasevich Iu. Iu. (2013). The concept of information-analytical system for collecting and analysis of scientific and scientometric information in the organization. Informatizatsiia obrazovaniia i nauki. (2), pp. 133 – 144.
2. Zelepukhina V. A. (2013). The problem of the reliability and credibility of scientific information within the Internet community, built on the principles of Web 2.0. Prikaspiiskii zhurnal: upravlenie i vysokie tekhnologii. (4), pp. 157 – 164.
3. Kniazeva A. A. et al. (2014). Experience for identifying persons for CRIS systems. Digital libraries: advanced methods and technologies, digital collections (RCDL’2014): proceedings of the 16th All-Russian scientific conference, city of Dubna, 13 – 16 October 2014, pp. 207 – 213.
4. Afonin S. A., Gaspariants A. E. (2014). Disambigu-ation of authorship of publications in automatic processing of bibliographic data. Programmnaia inzheneriia. (1), pp. 25 – 28.
5. Koliada A. S., Gogunskii V. D. (2014). The accuracy of identification of authorship of scientific publications based on latent semantic analysis. Vostochno-Evropeiskii zhurnal peredovykh tekhnologii. 3(2), pp. 36 – 40.
6. Treeratpituk P., Giles C. L. (2009). Disambiguating authors in academic publications using random forests. Proc. of the 9th ACM/IEEE-CS Joint Conf. on Digital Libraries (JCDL’09). June 15 – 19, Austin, Texas, USA, pp. 39 – 48.
7. Breiman L. (2001). Random forests. Machine Learning, 45(1), pp. 5 – 32. doi: 10.1023/A:1017934522171
8. Sun X. et al. (2011). Detecting ambiguous author names in crowdsourced scholarly data. Privacy, Security, Risk and Trust (PASSAT), IEEE 3rd Intern. Conf. on Social Computing. Boston, MA, USA, 9 – 11 Oct. 2011, pp. 568 – 571.
9. Wang X., Tang J., Cheng H. (2011). Active name disambiguation. Proc. of the 11th Intern. Conf. on Data Mining (ICDM’11), pp. 794 – 803.
10. Song Y. et al. (2007). Efficient topicbased unsupervised name disambiguation. Proc. of the 7th ACM. IEEE-CS Joint Conference on Digital Libraries (JCDL’07), pp. 342 – 351.
11. Song Y. et al. (2007). Generative models for name disambiguation. 16th Intern. Conf. on World Wide Web (WWW’2007), pp. 1163 – 1164.
12. Science.ASPU.ru. Astrakhan state University. Scientific activity: official site. Available at: http://science.aspu.ru (Accessed: 20.09.2014).
13. Whittaker J., Courtial J. P., Law J. (1989). Creativity and conformity in science: titles, keywords and coword analysis. Social Studies of Science. 19(3), pp. 473 – 496. doi: 10.1177/030631289019003004.

Рус

Статью можно приобрести в электронном виде (PDF формат).

Стоимость статьи 350 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.

После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.

Для заказа статьи заполните форму:

{jform=1,doi=10.14489/vkit.2015.09.pp.041-048}

.

Eng

This article  is available in electronic format (PDF).

The cost of a single article is 350 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.

After depositing your payment on our bank account we send you file of the article by e-mail.

To order articles please fill out the form below:

{jform=2,doi=10.14489/vkit.2015.09.pp.041-048}

 

 

 

 

 

.

.

 

 

 
Поиск
Баннер
Баннер
Rambler's Top100 Яндекс цитирования