19 | 12 | 2024

DOI: 10.14489/vkit.2021.02.pp.024-038

Нгуен Т. Вьет, Зыонг К. Х. Ту, Кравец А. Г.
(c. 24-38)

Аннотация. Рассмотрен статистический анализ текстов из цифровой библиотеки arXiv.org для выявления наиболее часто встречающихся терминов – биграмм и триграмм – в области компьютерных наук. Исследованы три архитектуры: полносвязная нейронная сеть, сверточная нейронная сеть, рекуррентная нейронная сеть с длительной кратковременной памятью. После оптимизации гиперпараметров обучена полносвязная нейронная сеть, показавшая лучшие среднеквадратичные оценки. Получены результаты прогнозирования тенденций использования терминов в области компьютерных наук в перспективе ближайших трех лет. Темы, связанные с машинным обучением в целом, обучением с подкреплением и рекуррентными нейронными сетями в частности, активно развиваются. Возможность заранее предсказывать научные тенденции потенциально может революционизировать методы работы в науке, например, позволяя финансирующим агентствам оптимизировать распределение ресурсов в перспективных областях исследований.

Ключевые слова:  прогнозирование тренда; компьютерные термины; нейронная сеть; сверточная нейронная сеть; длительная кратковременная память; гиперпараметрическая оптимизация; arXiv.org.


Nguyen T. V., Duong Q. H. T., Kravets A. G.
(pp. 24-38)

Abstract. The widespread use of information and communication technologies, database technologies and the Internet has led to the development of specialized digital libraries. These digital libraries serve a huge number of different users and play an important role as repositories and providers of information and knowledge. Therefore, the automatic extraction of useful information from texts stored in digital libraries is becoming an increasingly important research topic in the field of data mining. The article discusses the statistical analysis of texts in the digital library arXiv.org to identify the most common terms, bigrams and trigrams. After the hyper-parameters optimization process of neural network models, the trend prediction results in the use of terms in the field of computer sciences are presented. By analyzing statistics and predicting usage frequency of bigram and trigram terms our findings provide evidence that papers concerned with machine learning, reinforcement learning, generative adversarial network, convolutional neural network and recurrent neural network can be seen as main future research trend in Computer science in the next 3 years. Moreover, topics related to will experience a sudden increase in usage frequency. Being able to predict scientific trends in advance could potentially revolutionize the way science is done, for instance, by enabling funding agencies to optimize allocation of resources towards promising research areas.

Keywords: Research trend forecasting; Computer terms; Neural network; CNN (Convolutional Neural Network); LSTM (Long Short-Term Memory); Hyperparametric optimization; arXiv.org.


Т. Вьет Нгуен, К. Х. Ту Зыонг (Волгоградский государственный технический университет, Волгоград, Россия)
А. Г. Кравец (Волгоградский государственный технический университет, Волгоград, Россия; Государственный университет «Дубна», Московская область, Дубна, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript



T. V. Nguyen, Q. H. T. Duong (Volgograd State Technical University, Volgograd, Russia)
A. G. Kravets (Volgograd State Technical University, Volgograd, Russia; Dubna State University, Moscow region, Dubna, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript



