10.14489/vkit.2026.05.pp.003-011

DOI: 10.14489/vkit.2026.05.pp.003-011

Зайнельбашаров Д. Р., Даудов М. Г., Баранцев В. В., Курников А. А., Темерсултанов М. М.
АНАЛИЗ И КЛАССИФИКАЦИЯ ИНТЕРНЕТ-СТАТЕЙ ИЗ ОТКРЫТЫХ ИСТОЧНИКОВ
(с. 3-11)

Аннотация. Рассмотрены проектирование и реализация программного инструмента, предназначенного для анализа интернет-статей из открытых источников с использованием методов лемматизации, ключевого словоупотребления и тематического соответствия. Подробно рассмотрены этапы предварительной обработки текста, включая очистку от HTM-тегов, нормализацию и лемматизацию. При этом используется лемматизация как один из основных этапов предварительной обработки текста, позволяющий повысить точность тематической классификации. Разработанная система включает механизм извлечения заголовков, оценку релевантности текста определенным темам, классификацию по заранее заданным категориям, а также присвоение условной оценки качества материала. Результаты экспериментов показали высокую эффективность предложенного решения при обработке разных текстов – от новостных заметок до статей об искусственном интеллекте. Представленный программный инструмент может быть полезен исследователям в области обработки естественного языка, разработчикам интеллектуальных систем анализа текстов, а также специалистам, заинтересованным в автоматическом сборе и оценке интернет-контента.

Ключевые слова: классификация текста; алгоритмы анализа текста; лемматизация; обработка естественного языка; программное обеспечение.

Zaynelbasharov D. R., Daudov M. G., Barantsev V. V., Kurnikov A. A., Temersulta-nov M. M.
ANALYSIS AND CLASSIFICATION OF INTERNET ARTICLES FROM OPEN SOURCES
(pp. 3-11)

Abstract. This article discusses the design and implementation of a software tool for analyzing online articles from open sources, utilizing techniques like lemmatization, keyword analysis, and thematic matching. The approach emphasizes a detailed preprocessing pipeline that includes HTML tag removal, normalization, and lemmatization. By reducing words to their base forms, lemmatization minimizes morphological variation, improving the accuracy of topic classification and making keyword matching more consistent across different word forms. The system extracts headlines, evaluates the relevance of articles to specific topics, classifies content into predefined categories, and assigns a conditional quality score. This process accounts for both structural clarity and semantic relevance. Special attention is given to identifying dominant themes and detecting low–quality or misleading materials. The tool has been tested on diverse content, ranging from news reports to in–depth articles on artificial intelligence. Experimental results show high efficiency in detecting relevant topics and filtering out irrelevant information. The system serves as a valuable resource for researchers in natural language processing, developers creating intelligent content monitoring tools, and specialists focusing on the automatic collection and evaluation of web data. Its modular design allows it to be adapted to various text types, making it applicable across industries requiring large–scale content analysis. These results suggest the tool could significantly enhance both the speed and accuracy of categorizing content and assessing its quality, offering benefits for academic research and practical applications in data–driven decision–making.

Keywords: Text classification; Text analysis algorithms; Lemmatization; Natural language processing; Software.

+ - Информация об авторах (About the Authors) Click to collapse

Рус

Д. Р. Зайнельбашаров, М. Г. Даудов, В. В. Баранцев, А. А. Курников, М. М. Темерсултанов (Российский государственный университет имени А. Н. Косыгина, Москва, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript

Eng

D. R. Zaynelbasharov, M. G. Daudov, V. V. Barantsev, A. A. Kurnikov, M. M. Temersultanov (A. N. Kosygin Russian State University, Moscow, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript

+ - Библиографический список (References) Click to collapse

Рус

1. Suominen O., Koskenniemi I. Annif Analyzer Shootout: Comparing text lemmatization methods for automated subject indexing // Code4Lib Journal. 2022. № 54.
2. Акжолов Р. К., Верига А. В. Предобработка текста для решения задач NLP // Вестник науки. 2020. Т. 1, вып. 3. С 66–68.
3. Агаев А. Ф., Молодяков С. А. Лемматизация существительных в азербайджанском языке // Информатика и вычислительная техника и управление. Сер. Естественные и технические науки. № 7. 2023. С. 12–17. DOI: 10.37882/2223-2982.2023.07.01
4. Корюкин А. В. Исследование влияния стемминга и лемматизации на качество бинарной классификации по тональности кратких текстовых комментариев // Актуальные исследования. 2021. № 18(45). С. 10–13.
5. McKinney W. Data structures for statistical computing in Python. 2010 Presented at: 9th Python in Science Conference (SciPy 2010); 28 June – 3 July 2010. Austin, TX, USA. P. 56–61. DOI: 10.25080/majora-92bf1922-00a
6. Гончаров А. А., Зацман И. М. Принципы структуризации статей в электронных словарях // Информатика и ее применения. 2021. Т. 15, Вып. 2. С. 89–95. DOI: 10.14357/19922264210213
7. Прошина М. В. Современные методы обработки естественного языка: нейронные сети // Экономика строительства. 2022. Вып. 5. С. 27–42.
8. Логунова Т. В., Щербакова Л. В., Васюков В. М., Шимкун В. В. Анализ алгоритмов классификации текстов // Universum: технические науки. 2023. Вып. 2. С. 4–20.
9. Pennington J., Socher R., Manning C. Glove: Global Vectors for Word Representation // 2014 Confe-renceon Empirical Methods in Natural Language Processing (EMNLP); 25–29 October 2014; Doha, Qatar. P. 1532–1543. DOI: 10.3115/v1/d14-1162
10. Haroon M. Comparative analysis of stemming algorithms for web text mining // International Journal of Modern Education and Computer Science. 2018. V. 10, No. 9. P. 20–25.
11. Балканов И. В. Лемматизация как средство оптимизации макроструктуры электронного словаря // Филологические науки. Вопросы теории и практики. 2023. Т. 16, вып. 10. C. 3237–3244.

Eng

1. Suominen, O., & Koskenniemi, I. (2022). Annif analyzer shootout: Comparing text lemmatization methods for automated subject indexing. Code4Lib Journal, (54).
2. Akzholov, R. K., & Veriga, A. V. (2020). Text preprocessing for NLP tasks. Vestnik nauki, 1(3), 66–68. [in Russian language].
3. Agaev, A. F., & Modyakov, S. A. (2023). Lemmatization of nouns in the Azerbaijani language. Informatika i vychislitel'naya tekhnika i upravlenie. Ser. Estestvennye i tekhnicheskie nauki, (7), 12–17. [in Russian language]. https://doi.org/10.37882/2223-2982.2023.07.01
4. Koryukin, A. V. (2021). Investigation of the influence of stemming and lemmatization on the quality of binary classification by sentiment of short text comments. Aktual'nye issledovaniya, (18), 10–13. [in Russian language].
5. McKinney, W. (2010). Data structures for statistical computing in Python. In Proceedings of the 9th Python in Science Conference (SciPy 2010) (pp. 56–61). https://doi.org/10.25080/majora-92bf1922-00a
6. Goncharov, A. A., & Zatsman, I. M. (2021). Principles of structuring articles in electronic dictionaries. Informatika i ee primeneniya, 15(2), 89–95. [in Russian language]. https://doi.org/10.14357/19922264210213
7. Proshina, M. V. (2022). Modern methods of natural language processing: Neural networks. Ekonomika stroitel'stva, (5), 27–42. [in Russian language].
8. Logunova, T. V., Shcherbakova, L. V., Vasyukov, V. M., & Shimkun, V. V. (2023). Analysis of text classification algorithms. Universum: tekhnicheskie nauki, (2), 4–20. [in Russian language].
9. Pennington, J., Socher, R., & Manning, C. D. (2014). GloVe: Global vectors for word representation. In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) (pp. 1532–1543). https://doi.org/10.3115/v1/D14-1162
10. Haroon, M. (2018). Comparative analysis of stemming algorithms for web text mining. International Journal of Modern Education and Computer Science, 10(9), 20–25.
11. Balkanov, I. V. (2023). Lemmatization as a means of optimizing the macrostructure of an electronic dictionary. Filologicheskie nauki. Voprosy teorii i praktiki, 16(10), 3237–3244. [in Russian language].

+ - Заказать электронную версию статьи (Purchase digital version of a single article) Click to collapse

Рус

Статью можно приобрести в электронном виде (PDF формат).

Стоимость статьи 700 руб. (в том числе НДС 20%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.

После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.

Для заказа скопируйте doi статьи:

10.14489/vkit.2026.05.pp.003-011

и заполните форму

Отправляя форму вы даете согласие на обработку персональных данных.

Eng

This article is available in electronic format (PDF).

The cost of a single article is 700 rubles. (including VAT 20%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.

After depositing your payment on our bank account we send you file of the article by e-mail.

To order articles please copy the article doi:

10.14489/vkit.2018.01.pp.000-000

and fill out the form