10.14489/vkit.2018.12.pp.028-035 |
DOI: 10.14489/vkit.2018.12.pp.028-035 Лапшин С. В., Спивак А. И., Лебедев И. С. Аннотация. Предложен метод повышения показателей качества автоматической классификации текстов за счет использования информации о семантико-синтаксических связях между словами. Анализ графа семантико-синтаксического разбора текста позволяет выделить множество признаков, которые могут быть использованы как для обучения отдельного классификатора, так и добавлены к статистическим признакам и использоваться при обучении совместно. Разработан классификатор, реализующий рассматриваемую идею. Эксперимент, поставленный на коротких научных текстах, показал снижение числа ошибок классификации на 12,15 % по сравнению с классификатором, обученным на статистических признаках. Ключевые слова: тематическая классификация текстов; семантический анализ; синтаксический анализ; выделение семантико-синтаксических признаков; метод опорных векторов.
Lapshin S. V., Spivak A. I., Lebedev I. S. Abstract. We present the method for improving the quality metrics of text classification. The result achieved by using of additional semantico-syntactic features for text classifier. These features calculated from a semantico-syntactic representation of text. In our research, we used Stanford CoreNLP parser and its “Universal++Dependencies” representation of parse tree. It allowed us to handle some dependencies between words without additions preprocessing of parse tree and get a more complete set of semantico-syntactic features. In comparison with statistical features, such as TF–IDF (Term Frequency – Inverse Document Frequency) for words or n-grams, our features allows to build more “meaningful” numerical model of texts. At the same time, semantico-syntactic features can be used both for the training of a separate classifier, and are added to statistical features and used in training together.We performed an experiment on English texts from arXiv.org. We have taken the titles and abstracts of 4500 papers from three lexically close subject areas without intersection in subjects and used them for training and evaluation of two classifiers to check our idea. The first classifier trained on statistical features. The second trained on both statistical and semantico-syntactic features. Both of them used support vector machine method and tuned separately for maximum accuracy using cross-validation. The experiment showed a decrease of classification error count by 12.15 % compared with the classifier that trained on the statistical features. Keywords: Topic classification; Semantic Analysis; Syntactic Analysis; Extraction of semantico-syntactic features; Support vector machine.
РусС. В. Лапшин (Санкт-Петербургский государственный университет, Санкт-Петербург, Россия) E-mail:
Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
EngS. V. Lapshin (Saint-Petersburg State University, St. Petersburg, Russia) E-mail:
Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
Рус1. Ломотин К. Е., Козлова Е. С., Романов А. Ю. Применение методов машинного обучения при классификации научных текстов по специализиро-ванной базе текстов // Инновационные, информационные и коммуникационные технологии. 2017. № 1. С. 410 – 414. Eng1. Lomotin K. E., Kozlova E. S., Romanov A. Yu. (2017). The use of machine learning methods for the classification of scientific texts on a specialized database of texts. Innovatsionnye, informatsionnye i kommunikatsionnye tekhnologii, (1), pp. 410-414. [in Russian language]
РусСтатью можно приобрести в электронном виде (PDF формат). Стоимость статьи 350 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке. После поступления денег на счет издательства, вам будет выслан электронный вариант статьи. Для заказа скопируйте doi статьи: 10.14489/vkit.2018.12.pp.028-035 Отправляя форму вы даете согласие на обработку персональных данных. .
EngThis article is available in electronic format (PDF). The cost of a single article is 350 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank. After depositing your payment on our bank account we send you file of the article by e-mail. To order articles please copy the article doi: 10.14489/vkit.2018.12.pp.028-035 and fill out the
.
|