10.14489/vkit.2019.12.pp.010-017 |
DOI: 10.14489/vkit.2019.12.pp.010-017 Федоренко Ю. С. Аннотация. Рассмотрены методики статистического тестирования для сравнения значений метрик моделей машинного обучения на тестовой выборке. Поскольку значения метрик зависят не только от моделей, но и от набора данных, часто бывает недостаточно традиционного подхода со сравнением значений метрик на тестовой выборке. В таких случаях используют статистическое сравнение результатов, полученных на основе кроссвалидации, однако тогда нельзя гарантировать независимость полученных измерений, что не позволяет использовать t-критерий Стьюдента. Существуют критерии, не требующие независимости измерений, однако они имеют меньшую мощность. Для аддитивных метрик предложена методика, когда тестовая выборка разбивается на N частей, на каждой из которых вычисляется значение метрики. Для оценки необходимого объема выборок предложено использовать тесты на нормальность распределений, строить диаграммы квантиль–квантиль, а затем применять модификацию t-критерия Стьюдента для проведения статистического теста по сравнению средних значений метрик. Рассмотрена упрощенная методика, в которой проверяется попадание значений метрик моделей в доверительный интервал базовой модели. Ключевые слова: машинное обучение; метрики; бинарная кросс-энтропия; тестовая выборка; статистическое тестирование; критерии нормальности; t-критерий Стьюдента; доверительные интервалы.
Fedorenko Yu. S. Abstract. The statistical testing technique is considered to compare the metrics values of machine learning models on a test set. Since the values of metrics depend not only on the models, but also on the data, it may turn out that different models are the best on different test sets. For this reason, the traditional approach to comparing the values of metrics on a test set is often not enough. Sometimes a statistical comparison of the results obtained on the basis of cross-validation is used, but in this case it is impossible to guarantee the independence of the obtained measurements, which does not allow the use of the Student's t-test. There are criteria that do not require independent measurements, but they have less power. For additive metrics, a technique is proposed in this paper, when a test sample is divided into N parts, on each of which the values of the metrics are calculated. Since the value on each part is obtained as the sum of independent random variables, according to the central limit theorem, the obtained metrics values on each of the N parts are realizations of the normally distributed random variable. To estimate the required sample size, it is proposed to use normality tests and build quantile– quantile plots. You can then use a modification of the Student's t-test to conduct a statistical test comparing the mean values of the metrics. A simplified approach is also considered, in which confidence intervals are built for the base model. A model whose metric values do not fall into this interval works differently from the base model. This approach reduces the amount of computations needed, however, an experimental analysis of the binary cross-entropy metric for CTR (Click-Through Rate) prediction models showed that it is more rough than the first one. Keywords: Machine learning; Metrics; Binary cross-entropy; Test set; Statistical testing; Normality test; Student’s t-test; Confidence intervals.
РусЮ. С. Федоренко (Московский государственный технический университет им. Н. Э. Баумана (национальный исследовательский университет), Москва, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript EngYu. S. Fedorenko (Bauman Moscow State Technical University, Moscow, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
Рус1. Kohavi R. A Study of Cross-validation and Bootstrap for Accuracy Estimation and Model Selection // Proc. of the 14th Intern. Joint Conf. on Artificial Intel¬ligence, IJCAI, San Mateo, 20 – 25 August, 1995. Р. 1137 – 1143. Eng1. Kohavi R. (1995). A Study of Cross-validation and Bootstrap for Accuracy Estimation and Model Selection. Proc. of the 14th Intern. Joint Conf. on Artificial Intel¬ligence, IJCAI, San Mateo, 20 – 25 August, 1995, pp. 1137 – 1143.
РусСтатью можно приобрести в электронном виде (PDF формат). Стоимость статьи 350 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке. После поступления денег на счет издательства, вам будет выслан электронный вариант статьи. Для заказа скопируйте doi статьи: 10.14489/vkit.2019.12.pp.010-017 Отправляя форму вы даете согласие на обработку персональных данных. .
EngThis article is available in electronic format (PDF). The cost of a single article is 350 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank. After depositing your payment on our bank account we send you file of the article by e-mail. To order articles please copy the article doi: 10.14489/vkit.2019.12.pp.010-017 and fill out the
.
|