| 10.14489/vkit.2026.05.pp.003-011 |
|
DOI: 10.14489/vkit.2026.05.pp.003-011 Зайнельбашаров Д. Р., Даудов М. Г., Баранцев В. В., Курников А. А., Темерсултанов М. М. Аннотация. Рассмотрены проектирование и реализация программного инструмента, предназначенного для анализа интернет-статей из открытых источников с использованием методов лемматизации, ключевого словоупотребления и тематического соответствия. Подробно рассмотрены этапы предварительной обработки текста, включая очистку от HTM-тегов, нормализацию и лемматизацию. При этом используется лемматизация как один из основных этапов предварительной обработки текста, позволяющий повысить точность тематической классификации. Разработанная система включает механизм извлечения заголовков, оценку релевантности текста определенным темам, классификацию по заранее заданным категориям, а также присвоение условной оценки качества материала. Результаты экспериментов показали высокую эффективность предложенного решения при обработке разных текстов – от новостных заметок до статей об искусственном интеллекте. Представленный программный инструмент может быть полезен исследователям в области обработки естественного языка, разработчикам интеллектуальных систем анализа текстов, а также специалистам, заинтересованным в автоматическом сборе и оценке интернет-контента. Ключевые слова: классификация текста; алгоритмы анализа текста; лемматизация; обработка естественного языка; программное обеспечение.
Abstract. This article discusses the design and implementation of a software tool for analyzing online articles from open sources, utilizing techniques like lemmatization, keyword analysis, and thematic matching. The approach emphasizes a detailed preprocessing pipeline that includes HTML tag removal, normalization, and lemmatization. By reducing words to their base forms, lemmatization minimizes morphological variation, improving the accuracy of topic classification and making keyword matching more consistent across different word forms. The system extracts headlines, evaluates the relevance of articles to specific topics, classifies content into predefined categories, and assigns a conditional quality score. This process accounts for both structural clarity and semantic relevance. Special attention is given to identifying dominant themes and detecting low–quality or misleading materials. The tool has been tested on diverse content, ranging from news reports to in–depth articles on artificial intelligence. Experimental results show high efficiency in detecting relevant topics and filtering out irrelevant information. The system serves as a valuable resource for researchers in natural language processing, developers creating intelligent content monitoring tools, and specialists focusing on the automatic collection and evaluation of web data. Its modular design allows it to be adapted to various text types, making it applicable across industries requiring large–scale content analysis. These results suggest the tool could significantly enhance both the speed and accuracy of categorizing content and assessing its quality, offering benefits for academic research and practical applications in data–driven decision–making. Keywords: Text classification; Text analysis algorithms; Lemmatization; Natural language processing; Software.
РусД. Р. Зайнельбашаров, М. Г. Даудов, В. В. Баранцев, А. А. Курников, М. М. Темерсултанов (Российский государственный университет имени А. Н. Косыгина, Москва, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript EngD. R. Zaynelbasharov, M. G. Daudov, V. V. Barantsev, A. A. Kurnikov, M. M. Temersultanov (A. N. Kosygin Russian State University, Moscow, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
Рус1. Suominen O., Koskenniemi I. Annif Analyzer Shootout: Comparing text lemmatization methods for automated subject indexing // Code4Lib Journal. 2022. № 54. Eng1. Suominen, O., & Koskenniemi, I. (2022). Annif analyzer shootout: Comparing text lemmatization methods for automated subject indexing. Code4Lib Journal, (54).
РусСтатью можно приобрести в электронном виде (PDF формат). Стоимость статьи 700 руб. (в том числе НДС 20%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке. После поступления денег на счет издательства, вам будет выслан электронный вариант статьи. Для заказа скопируйте doi статьи: 10.14489/vkit.2026.05.pp.003-011 Отправляя форму вы даете согласие на обработку персональных данных. .
EngThis article is available in electronic format (PDF). The cost of a single article is 700 rubles. (including VAT 20%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank. After depositing your payment on our bank account we send you file of the article by e-mail. To order articles please copy the article doi: 10.14489/vkit.2018.01.pp.000-000 and fill out the
.
|
Текущий номер
Разработка концепции и создание сайта - ООО «Издательский дом «СПЕКТР»