| Русский Русский | English English |
   
Главная Текущий номер
07 | 04 | 2020
10.14489/vkit.2020.02.pp.023-031

DOI: 10.14489/vkit.2020.02.pp.023-031

Беляков С. Л., Карпов С. М.
ВЫЯВЛЕНИЕ МОШЕННИЧЕСКИХ ФИНАНСОВЫХ ОПЕРАЦИЙ С ПОМОЩЬЮ АЛГОРИТМА МАШИННОГО ОБУЧЕНИЯ
(c. 23-31)

Аннотация. Посвящена проблеме автоматизированного обнаружения мошеннических финансовых операций. Рассмотрены современные подходы к мониторингу и обнаружению случаев мошенничества. Особое внимание уделено задаче оптимального распознавания классов транзакций в условиях значительно несбалансированных данных. Проводится выбор лучшего классификатора среди таких ансамблевых алгоритмов, как случайный лес, адаптивный бустинг и бэггинг деревьев решений. Рассматриваются методы решения проблемы несбалансированных данных. Для создания сбалансированных подмножеств оценщиков ансамблевых алгоритмов используется алгоритм случайной недостаточной выборки. Приводятся результаты экспериментального сравнения выбранных методов.

Ключевые слова:  машинное обучение; мошенническая финансовая операция; несбалансированные данные; случайная недостаточная выборка.

 

Belyakov S. L., Karpov S. М.
IDENTIFY OF FRAUDULENT FINANCIAL OPERATIONS USING THE MACHINE LEARNING ALGORITHM
(pp. 23-31)

Abstract. Current work is devoted to the problem of automatic detection of fraudulent financial transactions. The article describes the causes of fraudulent transactions their typical attributes, as well as the basic principle of detection. The concepts of fraudulent and honest transactions are defined. Examples of algorithms for determining suspicious financial transactions in antifraud systems are given. Modern approaches to monitoring and detecting cases of fraud in remote banking systems are considered. The positive and negative aspects of each approach are described. Particular attention is paid to the problem of optimal recognition of transaction classes in highly unbalanced data. Methods for solving the problem of unbalanced data are considered. The choice of means for evaluating the operation of the machine learning model is justified considering the specifics of data distribution. As a solution, we propose an approach based on the use of ensemble classifiers in conjunction with balanced sampling algorithms, the key feature of which is to create a balanced sample not for the entire classifier, but for each student in the ensemble separately. Based on data on fraud in the field of bank credit cards, a comparison is made and the best classifier is selected among such ensemble algorithms as random forest, adaptive boosting and bagging of decision trees. To create balanced subsets of evaluators of ensemble algorithms, the algorithm of random insufficient sampling is used. To search for the optimal parameters of the classifiers, the random search algorithm on the grid is used. The results of experimental comparison of the selected methods are presented. The advantages of the proposed approach are analyzed, and the boundaries of its applicability are discussed.

Keywords: Machine learning; Fraudulent financial transactions; Unbalanced data; Random undersampling.

Рус

С. Л. Беляков, С. М. Карпов (Институт компьютерных технологий и информационной безопасности Южного федерального университета, Таганрог, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript , Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Eng

S. L. Belyakov, S. М. Karpov (Institute of Computer Technologies and Information Security of the Southern Federal University, Taganrog, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript , Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Рус

1. Жалилов Р. Р. Развитие дистанционного обслуживания клиентов в сфере инновационной деятельности банка // Известия ПГПУ имени В. Г. Белинского. 2011. № 24. С. 272 – 274.
2. Белянина Н. В., Кожин Е. В. Информационная система определения мошенничества по платежным картам в режиме реального времени // Сервис в России и за рубежом. 2009. № 2. С. 17 – 30.
3. Прошунин М. М. Финансовый мониторинг как вид финансового контроля // Вестник Томского государственного университета. 2010. № 330. С. 105 – 109.
4. Кудряшова О. К., Ильина А. В. Аналитическая система антифрод как комплекс мер для оценки риска финансовых транзакций // Актуальные вопросы экономической теории: развитие и применение в практике российских преобразований: материалы VII междунар. науч.-практ. конф. Уфа, 25–26 мая 2018 г. С. 193 – 196.
5. Соколов Е. А. Лекция 4. Линейная классификация [Электронный ресурс] // ФКН ВШЭ. URL: https://github.com/esokolov/mlcourse-hse/blob/master/2018- fall/lecture-notes/ lecture04-linclass.pdf (дата обращения: 14.08.2019).
6. Дьяконов А. М. AUC ROC (площадь под кривой ошибок) [Электронный ресурс]. URL: https:// dyakonov.org/2017/07/28/aucroc-площадь-под-кривой-ошибок/#more-5362 (дата обращения: 14.08.2019).
7. Бардамова М. Б. Методы предобработки несбалансированных данных // Научная сессия ТУСУР-2018: материалы междунар. науч.-техн. конф. Студентов, аспирантов и молодых ученых. Ч. 3. Томск, 16–18 мая 2018 г. С. 112 – 115.
8. Никулин В. Н., Канишев И. С., Багаев И. В. Методы балансировки и нормализации данных для улучшения качества классификации // Компьютерные инструменты в образовании. 2016. № 3. С. 16 – 23.
9. Каврин Д. А., Субботин С. А. Методы количественного решения проблемы несбалансированности классов // Радиоэлектроника, информатика, управление. 2018. № 1. С. 83 – 90.
10. SMOTE: Synthetic Minority Over-Sampling Technique / N. V. Chawla, K. W. Bowyer, L. O. Hall et al. // Journal of Artificial Intelligence Research. 2002. No. 16. P. 321 – 357.
11. Махсотова Ц. В. Исследование методов классификации при несбалансированности классов // Научный журнал. 2017. № 5(12). С. 35–36.
12. A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data / E. A. Gustavo, P. A. Batista, C. Ronaldo et al. // SIGKDD Explorations. 2004. No. 6(1). P. 20 – 29.
13. OOB Errors for Random Forests [Электронный ресурс] // Scikit-learn: Machine Learning in Python. 2019. URL: https://scikit-learn.org/0.21/auto_examples/ ensemble/plot_ensemble_oob.html (дата обращения: 16.08.2019).
14. Голдовский И. Безопасность платежей в Интернете. СПб.: Питер бук, 2001. 240 с.
15. Международная и российская обстановка // Отчет центра мониторинга и реагирования на компьютерные атаки в кредитно-финансовой сфере Департамента информационной безопасности банка России за период 01.09.2018 – 31.08.2019. 2019. С. 7–8.
16. Machine Learning Group: Credit Card Fraud Detection [Электронный ресурс] // Anonymized Credit Card Transactions Labeled as Fraudulent or Genuine. URL: https://www.kaggle.com/mlg-ulb/creditcardfraud (дата обращения: 27.07.2019).
17. Виноградова Е. П., Головин Е. Н. Метрики качества алгоритмов машинного обучения в задачах классификации // Научная сессия ГУАП. 2017. № 1(3). С. 202 – 206.
18. Ensemble Methods [Электронный ресурс] / G. Lemaitre, F. Nogueira, D. Oliveira, C. Aridas // Imbalanced-learn API. 2017. URL: https://imbalanced-learn.org/en/stable/api.html (дата обращения: 03.08.2019).
19. Chao C., Liaw A., Breiman L. Using Random Forest to Learn Imbalanced Data // University of California, Berkeley 110, 2004. Р. 1 – 12.
20. RUSBoost: A Hybrid Approach to Alleviating Class Imbalance / C. Seiffert, T. M. Khoshgoftaar, J. Van Hulse, A. Napolitano // IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans. 2010. Р. 185 – 197.
21. Breiman L. Bagging predictors // Machine Learning. 1996. No. 24(2). P. 123 – 140.

Eng

1. Zhalilov R. R. (2011). Development of remote customer service in the field of innovative activities of the bank. Izvestiya PGPU imeni V. G. Belinskogo, 24, pp. 272 – 274. [in Russian language]
2. Belyanina N. V., Kozhin E. V. (2009). Real-time Payment Card Fraud Detection Information System. Servis v Rossii i za rubezhom, (2), pp. 17 – 30. [in Russian language]
3. Proshunin M. M. (2010). Financial monitoring as a type of financial control. Vestnik Tomskogo gosudarstvennogo universiteta, 330, pp. 105 – 109. [in Russian language]
4. Kudryashova O. K., Il'ina A. V. (2018). Antifraud analytical system as a set of measures for assessing the risk of financial transactions. Actual issues of economic theory: development and application in practice of Russian transformations: materials of the VII international scientific-practical conference, pp. 193 – 196. Ufa. [in Russian language]
5. Sokolov E. A. Lecture 4. Linear classification. HSE FKN. Available at: https://github.com/esokolov/ mlcourse-hse/blob/master/2018- fall/lecture-notes/ lecture04-linclass.pdf (Accessed: 14.08.2019). [in Russian language]
6. D'yakonov A. M. AUC ROC (area under the error curve). Available at: https:// dyakonov.org/2017/07/28/aucroc-площадь-под-кривой-ошибок/#more-5362 (Accessed: 14.08.2019). [in Russian language]
7. Bardamova M. B. (2018). Methods for preprocessing unbalanced data. TUSUR-2018 scientific session: materials international scientific and technical conference of students, graduate students and young scientists, Part 3, pp. 112 – 115. Tomsk. [in Russian language]
8. Nikulin V. N., Kanishev I. S., Bagaev I. V. (2016). Methods of balancing and normalizing data to improve classification quality. Komp'yuternye instrumenty v obrazovanii, (3), pp. 16 – 23. [in Russian language]
9. Kavrin D. A., Subbotin S. A. (2018). Methods for quantifying the problem of class imbalance. Radioelektronika, informatika, upravlenie, (1), pp. 83 – 90. [in Russian language]
10. Chawla N. V., Bowyer K. W., Hall L. O. et al. (2002). SMOTE: Synthetic Minority Over-Sampling Technique. Journal of Artificial Intelligence Research, 16, pp. 321 – 357.
11. Mahsotova Ts. V. (2017). Study of classification methods in case of class imbalance. Nauchniy zhurnal, 12(5), pp. 35–36. [in Russian language]
12. Gustavo E. A., Batista P. A., Ronaldo C. et al. (2004). A Study of the Behavior of Several Methods for Balancing Machine Learning Training Data. SIGKDD Explorations, 1(6), pp. 20 – 29.
13. OOB Errors for Random Forests. (2019). Scikit-learn: Machine Learning in Python. Available at: https://scikit-learn.org/0.21/auto_examples/ ensemble/plot_ensemble_oob.html (Accessed: 16.08.2019).
14. Goldovskiy I. (2001). Online payment security. Saint Petersburg: Piter buk. [in Russian language]
15. International and Russian situation. (2019). Report of the center for monitoring and responding to computer attacks in the credit and financial sector of the Information Security Department of the Bank of Russia for the period September 1, 2018 - August 31, 2019, pp. 7–8. [in Russian language]
16. Machine Learning Group: Credit Card Fraud Detection. Anonymized Credit Card Transactions Labeled as Fraudulent or Genuine. Available at: https://www.kaggle.com/mlg-ulb/creditcardfraud (Accessed: 27.07.2019).
17. Vinogradova E. P., Golovin E. N. (2017). Quality metrics of machine learning algorithms in classification problems. Nauchnaya sessiya GUAP, 3(1), pp. 202 – 206. [in Russian language]
18. Lemaitre G., Nogueira F., Oliveira D., Aridas C. (2017). Ensemble Methods. Imbalanced-learn API. Available at: https://imbalanced-learn.org/en/stable/api.html (Accessed: 03.08.2019).
19. Chao C., Liaw A., Breiman L. (2004). Using Random Forest to Learn Imbalanced Data, pp. 1 – 12. Berkeley: University of California.
20. Seiffert C., Khoshgoftaar T. M., J. Van Hulse, Napolitano A. (2010). RUSBoost: A Hybrid Approach to Alleviating Class Imbalance. IEEE Transactions on Systems, Man, and Cybernetics-Part A: Systems and Humans, pp. 185 – 197.
21. Breiman L. (1996). Bagging predictors, 24(2), pp. 123 – 140.

Рус

Статью можно приобрести в электронном виде (PDF формат).

Стоимость статьи 350 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.

После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.

Для заказа скопируйте doi статьи:

10.14489/vkit.2020.02.pp.023-031

и заполните  форму 

Отправляя форму вы даете согласие на обработку персональных данных.

.

 

Eng

This article  is available in electronic format (PDF).

The cost of a single article is 350 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.

After depositing your payment on our bank account we send you file of the article by e-mail.

To order articles please copy the article doi:

10.14489/vkit.2020.02.pp.023-031

and fill out the  form  

 

.

 

 

 
Поиск
Баннер
Баннер
Журнал КОНТРОЛЬ. ДИАГНОСТИКА
Баннер
Баннер
Баннер
Баннер
Rambler's Top100 Яндекс цитирования