10.14489/vkit.2023.06.pp.029-035 |
DOI: 10.14489/vkit.2023.06.pp.029-035 Чернавин П. Ф., Чернавин Ф. П., Чернавин Н. П., Пономарева О. А., Борисова О. А. Аннотация. Семейство метрических алгоритмов, основанных на определении расстояния от одного наблюдения до других, обладает рядом преимуществ: оно подходит для большого типа задач, результаты работы методов имеют понятную интерпретацию. Метрические алгоритмы находят широкое применение при моделировании кредитных рисков, в неразрушающем контроле качества изделий, медицинской диагностике, геологии и многих других практических областях. Наиболее распространенный на практике метрический алгоритм ‒ метод k-ближайших соседей. Одна из ключевых проблем метрических алгоритмов – проблема размерности, так как решение принимается на основе всех наблюдений обучающей выборки. Кроме того, обычно все переменные имеют одинаковый вес при расчете расстояния, что приводит к падению качества алгоритма при увеличении числа признаков. Рассматривается новый метод машинного обучения для решения задач классификации – метрический классификатор с подбором весов признаков. Для оптимизации целевой функции были использованы девять алгоритмов. Качество классификации на их основе проверялось на трех задачах из репозитория UCI. Для построения нового метрического классификатора был выбран усеченный метод Ньютона. Качество нового классификатора проверялось на восьми наборах данных и сравнивалось с качеством классического метода ближайших соседей. Данный классификатор имеет лучшие по сравнению с классическим подходом показатели качества при большом количестве признаков. Ключевые слова: классификация; метод ближайших соседей; метод потенциальных функций; информативность признаков.
Chernavin P. F., Chernavin F. P., Chernavin N. P., Ponomareva O. A., Borisova O. A. Abstract. The family of metric algorithms based on determining the distance from one observation to another has a number of advantages, such as their suitability for many types of problems and results have a clear interpretation. Therefore, metric algorithms are widely used in credit risk modeling, non-destructive quality control of products, medical diagnostics, geology, and many other practical areas. The most common metric algorithm in practice is the k-nearest neighbors method. At the same time, one of the key problems of metric algorithms is the problem of dimension, since the decision is made on the basis of all observations of the training sample. In addition, usually all variables have the same weight when calculating the distance, which leads to a drop in the quality of the algorithm with an increase in the number of features. The article discusses a new machine learning method for solving classification problems – a metric classifier with the selection of feature weights, which allows to solve these problems to a large extent. Nine algorithms were used to optimize the function. Classification quality based on them is checked on 3 problems from the UCI repository. As a result of the comparison, the truncated Newton method was chosen to build a new metric classifier. The quality of the new classifier was tested on 8 datasets from the same repository and compared with the quality of the classical nearest neighbor method. This classifier has a higher quality for problems with a large number of features in comparison to the classical approach. Data set characteristics and calculation results are presented in the corresponding tables. Keywords: Classification; Nearest neighbor method; Potential function method; Information content of features.
РусП. Ф. Чернавин, Ф. П. Чернавин, Н. П. Чернавин, О. А. Пономарева (Уральский федеральный университет имени первого Президента России Б. Н. Ельцина, Екатеринбург, Россия) E-mail:
Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
EngP. F. Chernavin, F. P. Chernavin, N. P. Chernavin, O. A. Ponomareva (Ural Federal University named after the First President of Russia B. N. Yeltsin, Yekaterinburg, Russia) E-mail:
Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
Рус1. Воронцов К. В. Метрические методы классификации и регрессии [Электронный ресурс]. URL: http://www.machinelearning.ru/wiki/ (дата обращения: 20.12.2022). Eng1. Vorontsov K. V. Metric classification and regression methods. Available at: http://www.machinelearning.ru/wiki/ (Accessed: 20.12.2022). [in Russian language]
РусСтатью можно приобрести в электронном виде (PDF формат). Стоимость статьи 500 руб. (в том числе НДС 20%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке. После поступления денег на счет издательства, вам будет выслан электронный вариант статьи. Для заказа скопируйте doi статьи: 10.14489/vkit.2023.06.pp.029-035 Отправляя форму вы даете согласие на обработку персональных данных. .
EngThis article is available in electronic format (PDF). The cost of a single article is 500 rubles. (including VAT 20%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank. After depositing your payment on our bank account we send you file of the article by e-mail. To order articles please copy the article doi: 10.14489/vkit.2023.06.pp.029-035 and fill out the
.
|