DOI: 10.14489/vkit.2024.06.pp.050-057
Чернавин П. Ф., Чернавин Ф. П., Чернавин Н. П., Пономарева О. А., Сальник К. Д. ОПЫТ ПРИМЕНЕНИЯ РАЗЛИЧНЫХ МЕТОДОВ ИМПУТАЦИИ ДАННЫХ ПРИ РЕШЕНИИ ЗАДАЧ КЛАССИФИКАЦИИ (c.50-57)
Аннотация. Управление всеми процессами базируется на решающих правилах. Качество решающих правил во многом зависит от полноты и качества данных, используемых для их создания. Присутствие пустых значений в данных – серьезная проблема при подготовке данных. Заполнение пустых значений называют импутацией данных. Существуют различные методы решения данной проблемы. Известные методологии выбора наиболее подходящего метода импутации хорошо применимы для анализа большого количества данных. Для относительно небольших наборов данных предлагается исходить из конечного предназначения импутированного набора данных. Например, для решения задачи классификации надо рассматривать методы импутации в сочетании с методами классификации и выбирать наилучшую комбинацию по метрикам методов классификации, но без переобучения. Авторский подход продемонстрирован на реальных данных по диагностике двух часто встречающихся заболеваний – гипертензии и гипотензии. В качестве входных параметров рассматривались возраст, индекс массы тела и 28 показателей биохимии крови. Пустые значения заполнялись шестью способами. После импутации генеральная выборка из 502 наблюдений разбивалась на обучающую (80 %) и тестовую (20 %) выборки. Для решения каждой задачи классификации использовались 18 моделей машинного обучения. Результаты расчетов представлены в таблицах.
Ключевые слова: импутация данных; методы машинного обучения; переобучение; гипертензия; гипотензия.
Chernavin P. F., Chernavin F. P., Chernavin N. P., Ponomareva O. A., Salnik K. D. EXPERIENCE IN APPLYING VARIOUS DATA IMPUTATION METHODS IN SOLVING CLASSIFICATION PROBLEMS (pp.50-57)
Abstract. The management of all processes is based on decisive rules. The quality of these rules largely depends on the completeness and quality of the data used for their creation. A serious problem in data preparation is the presence of missing values. Filling in missing values is commonly referred to as data imputation. There are various methods for solving this problem. Existing methodologies for selecting the most suitable imputation method are well applicable for analyzing large amounts of data, but they are difficult to use for relatively small datasets. In this case it is suggested that the final purpose of the imputed dataset should be considered. For example, if the ultimate goal is to solve a classification problem, then imputation methods should be considered in combination with classification methods, and the best combination should be chosen based on classification method metrics, but without overfitting. The authors' approach is demonstrated on real data for diagnosing two common diseases: hypertension and hypotension. The input parameters considered were age, body mass index, and 28 blood biochemistry indicators. Missing values were filled in using six methods. After imputation, the general sample of 502 observations was split into training (80 %) and testing (20 %) sets. For solving each classification problem, 18 machine learning models were used. The calculation results are presented.
Keywords: Data imputation; Machine learning methods; Overfitting; Hypertension; Hypotension.
П. Ф. Чернавин, Ф. П. Чернавин, Н. П. Чернавин, О. А. Пономарева, К. Д. Сальник (Уральский федеральный университет имени первого Президента России Б. Н. Ельцина, Екатеринбург, Россия) E-mail: chernavin.p.f@ gmail.com
P. F. Chernavin, F. P. Chernavin, N. P. Chernavin, O. A. Ponomareva, K. D. Salnik (Ural Federal Universiyu named after the First President of Russia B. N. Yeltsyn, Yekaterinburg, Russia) E-mail: chernavin.p.f@ gmail.com
1. Павленко А. Импутация данных с помощью Deep Learning. URL: https://otus.ru/nest/post/2059/ (дата обращения: 29.04.2023). 2. Rezvan P. H, Lee K. J, Simpson J. A. The Rise of Multiple Imputation: a Review of the Reporting and Imple-mentation of the Method in Medical Research // BMC Medical Research Methodology. 2015. V. 15(30). P. 1–14. 3. A Review of the Reporting and Handling of Missing Data in Cohort Studies with Repeated Assessment of Exposure Measures / A. Karahalios, L. Baglietto, J. B. Carlin et al. // BMC Medical Research Methodology. 2012. V. 12. 4. Horton N. J., Kleinman K. P. Much Ado about Nothing: A Comparison of Missing Data Methods and Software to Fit Incomplete Data Regression Models // The American Statistician. 2007. V. 61(1). P. 79–90. 5. Burton A., Altman D. G. Missing Covariate Data within Cancer Prognostic Studies: A Review of Current Repor-ting and Proposed Guidelines // British Journal of Cancer. 2004. V. 91(1). P. 4–8. 6. Фабрикант М. С. Модель-ориентированный подход к отсутствующим значениям: множественная импутация в многоуровневой регрессии посредством R (на примере анализа опросных данных) // Социология: методология, методы, математическое моделирование (Социология:4М). 2015. № 41. С. 7−29. 7. Зангиева И. К., Тимонина Е. С. Сравнение эффективности алгоритмов заполнения пропусков в данных в зависимости от используемого метода анализа // Мониторинг общественного мнения. 2014. №1(119). С. 41−55. 8. Литтл Р., Рубин Д. Статистический анализ данных с пропусками. М.: Финансы и статистика, 1990. 169 с. 9. Мулерова Т. А., Огарков М. Ю., Барбарш О. Л. Предикторы риска развития артериальной гипертензии у населения Горной Шории различной этнической принадлежности // Медицинский алфавит. 2019. Т. 1, № 3. С. 39−42. 10. Холматова К. К., Харькова О. А., Гржибовский А. М. Особенности применения когортных исследований в медицине и общественном здравоохранении // Экология человека. 2016. № 4. С. 56−64. 11. Тюлькова Т. Е., Чернавин П. Ф., Чернавин Н. П. Практическое применение методов машинного обучения на примере определения активности туберкулезного процесса у лиц с минимальными туберкулезными изменениями, выявленными не рентгенограмме органов грудной клетки // Клинический вестник ФМБЦ им. А. И. Бурназяна. 2022. № 2. С. 64−73. 12. Тюлькова Т. Е., Чернавин П. Ф., Чернавин Н. П. Диагностика туберкулеза без бактериовыделения с применением классических методов машинного обучения // При-каспийский журнал: управление и высокие технологии. 2023. № 4(64). С. 52−62. 13. Машинное обучение на основе задач математиче-ского программирования / П. Ф. Чернавин, Д. Н. Гайнанов, В. Н. Панкращенко и др. М.: Наука, 2021. 128 с.
1. Pavlenko A. Data imputation using Deep Learning. Retrieved from https://otus.ru/nest/post/2059/ (Accessed: 29.04.2023). [in Russian language] 2. Rezvan P. H, Lee K. J, Simpson J. A. (2015). The Rise of Multiple Imputation: a Review of the Reporting and Implementation of the Method in Medical Research. BMC Med-ical Research Methodology, 30(15), 1 – 14. 3. Karahalios A., Baglietto L., Carlin J. B. et al. (2012). A Review of the Reporting and Handling of Missing Data in Cohort Studies with Repeated Assessment of Exposure Measures. BMC Medical Research Methodology, 12. 4. Horton N. J., Kleinman K. P. (2007). Much Ado about Nothing: A Comparison of Missing Data Methods and Software to Fit Incomplete Data Regression Models. The American Stat-istician, 61(1), 79 – 90. 5. Burton A., Altman D. G. (2004). Missing Covariate Data within Cancer Prognostic Studies: A Review of Current Reporting and Proposed Guidelines. British Journal of Cancer, 91(1), 4 – 8. 6. Fabrikant M. S. (2015). A Model-Based Approach to Missing Values: Multiple Imputation in Multilevel Regression Using R (Example from Survey Data Analysis). Sotsiologiya: metodologiya, metody, matematicheskoe modelirovanie (Sotsiologiya:4M), 41, 7 − 29. [in Russian language] 7. Zangieva I. K., Timonina E. S. (2014). Comparison of the effectiveness of algorithms for filling gaps in data depending on the analysis method used. Monitoring obshchestvennogo mneniya, 119(1), 41 − 55. [in Russian language] 8. Littl R., Rubin D. (1990). Statistical analysis of missing data. Moscow: Finansy i statistika. [in Russian language] 9. Mulerova T. A., Ogarkov M. Yu., Barbarsh O. L. (2019). Predictors of the risk of developing arterial hypertension in the population of Gornaya Shoria of various ethnicities. Meditsinskiy alfavit, 1(3), 39 − 42. [in Russian language] 10. Holmatova K. K., Har'kova O. A., Grzhibovskiy A. M. (2016). Features of the use of cohort studies in medicine and public health. Ekologiya cheloveka, (4), 56 − 64. [in Russian language] 11. Tyul'kova T. E., Chernavin P. F., Chernavin N. P. (2022). Practical application of machine learning methods using the example of determining the activity of the tuberculosis pro-cess in individuals with minimal tuberculosis changes detected on a chest x-ray. Klinicheskiy vestnik FMBTS im. A. I. Burnazyana, (2), 64 − 73. [in Russian language] 12. Tyul'kova T. E., Chernavin P. F., Chernavin N. P. (2023). Diagnosis of tuberculosis without bacterial isolation using classical machine learning methods. Prikaspiyskiy zhur-nal: upravlenie i vysokie tekhnologii, 64(4), 52 − 62. [in Russian language] 13. Chernavin P. F., Gaynanov D. N., Pankrashchenko V. N., Chernavin F. P., Chernavin N. P. (2021). Machine learning based on mathematical programming problems. Moscow: Nauka. [in Russian language]
Статью можно приобрести в электронном виде (PDF формат).
Стоимость статьи 500 руб. (в том числе НДС 20%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.
После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.
Для заказа скопируйте doi статьи:
10.14489/vkit.2024.06.pp.050-057
и заполните форму
Отправляя форму вы даете согласие на обработку персональных данных.
.
This article is available in electronic format (PDF).
The cost of a single article is 500 rubles. (including VAT 20%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.
After depositing your payment on our bank account we send you file of the article by e-mail.
To order articles please copy the article doi:
10.14489/vkit.2024.06.pp.050-057
and fill out the form
.
|