|
DOI: 10.14489/vkit.2025.12.pp.049-058
Тумбинская М. В., Егоров А. Н. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ РАСПОЗНАВАНИЯ ФИШИНГОВЫХ ПИСЕМ НА ОСНОВЕ НЕЙРОСЕТЕВОЙ МОДЕЛИ (c. 49-58)
Аннотация. В условиях постоянного совершенствования методов фишинга разработка антифишинг-систем представляет интерес. Цель данного исследования – повышение уровня информационной безопасности пользователей, использующих почтовые сервисы. Предложено автоматизированное распознавание фишинговых писем с использованием методов машинного обучения. Программное обеспечение позволяет в автоматизированном режиме выявлять и классифицировать фишинговые письма. Рассмотрены нейросетевые модели, их особенности, обоснован выбор модели RoBERTa для разработки программного обеспечения. Описано экспериментальное исследование качества и адекватности нейросетевой модели. Результаты показали, что точность распознавания фишинговых писем составила 99,6 %.
Ключевые слова: кибербезопасность; искусственный интеллект; машинное обучение; фишинг; антифрод.
Tumbinskaya M. V., Egorov A. N. SOFTWARE FOR RECOGNIZING PHISHING EMAILS BASED ON A NEURAL NETWORK (pp. 49-58)
Abstract. With the constant evolution of phishing technologies, the development of anti-fraud systems remains a relevant and important task. The goal of this study is to improve the security of email services and their users. This can be achieved through the automatic recognition of phishing emails using machine learning methods. This article presents software capable of automatically classifying phishing emails. Various neural network models are considered, their distinctive features are highlighted, and the choice of the RoBERTa model as the basis for the developed system is justified. An improved model for analyzing email text and recognizing phishing messages is proposed based on the developed and implemented software. This model differs from existing approaches in its three-stage process of further training the RoBERTa language model, as well as the development and implementation of software providing functionality for analyzing emails via an API or web interface. An assessment of the quality and adequacy of the neural network model on both test and extended (augmented) test samples is described. The experimental results showed that the accuracy on the extended sample is 0.07 % lower than the original test sample. The results of the study demonstrate the effectiveness of the developed software based on the retrained RoBERTa model, providing recognition of phishing emails with an accuracy of 99.6 % on the test sample and 99.53 % on the augmented sample.
Keywords: Cybersecurity; Artificial intelligence; Machine learning; Phishing; Antifraud.
М. В. Тумбинская, А. Н. Егоров (Казанский национальный исследовательский технический университет им. А. Н. Туполева – КАИ, Казань, Россия) E-mail:
Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
M. V. Tumbinskaya, A. N. Egorov (Kazan national research technical university named after A. N. Tupolev – KAI, Kazan, Russia) E-mail:
Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
1. Корнюхина С. П., Лапонина О. Р. Исследование возможностей алгоритмов глубокого обучения для защиты от фишинговых атак // International Journal of Open Information Technologies. 2023. Т. 11, №6. С. 163–174. 2. Архипова А. Б., Ижик В. А. Применение методов машинного обучения для обнаружения фишинговых писем: алгоритмы и подходы // Безопасность цифровых технологий. 2025. №1 (116). С. 70–85. 3. Гибадуллин Р. Ф., Лекомцев Д. В., Перухин М. Ю. Анализ параметров промышленных сетей с применением нейросетевой обработки // Искусственный интеллект и принятие решений. 2020. № 1. С. 80–87. 4. Гизатуллин З. М., Гизатуллин Р. М., Мубараков Р. Р. Моделирование помех в электронном устройстве при воздействии импульсного магнитного поля с использованием искусственной нейронной сети // Журнал радиоэлектроники. 2024. № 5. C. 1–15. 5. Отчет Check Point Research (CPR) [Электронный ресурс]. 2025. URL: https://blog.checkpoint.com/research/check-point-research-reports-highest-increase-of-global-cyber-attacks-seen-in-last-two-years-a-30-increase-in-q2-2024-global-cyber-attacks/ (дата обращения: 04.04.2025). 6. Отчет компании Verizon «2024 Data Breach Investigations Report (DBIR)» [Электронный ресурс]. 2025. URL: https://www.verizon.com/business/resources/Te3/reports/2024-dbir-data-breach-investigations-report.pdf (дата обращения: 10.03.2025). 7. Отчет компании IBM «Cost of a Data Breach Report 2024» [Электронный ресурс]. 2025. URL: https://www.ibm.com/downloads/documents/us-en/107a02e94948f4ec (дата обращения: 10.03.2025). 8. Гизатуллин З. М., Мубараков Р. Р. Прогнозирование помех электростатического разряда в электронном устройстве с использованием искусственной нейронной сети // Журнал радиоэлектроники. 2024. № 8. С. 1–13. 9. Котиков Н. М., Максимова Е. А., Русаков А. М. Использование алгоритмов машинного обучения для распознавания фишинговых ресурсов // Национальная безопасность и стратегическое планирование. 2024. № 2(46). С. 13–24. 10. Тумбинская М. В., Галиев Р. А. Идентификация фейк-новостей с помощью веб-ресурса на основе нейронных сетей // Программные продукты и системы. 2023. № 4. С. 590–599. 11. Tan K. L., Lee C. P., Lim K. M., Anbananthen K. S. M. Sentiment Analysis with Ensemble Hybrid Deep Learning Model. IEEE Access. 2022. V. 10. P. 103694–103704. DOI: 10.1109/ACCESS.2022.3210182 12. Staples D., Hakak S., Cook P. A Comparison of Machine Learning Algorithms for Multilingual Phishing Detection // 20th Annual International Conference on Privacy, Security and Trust (PST). Copenhagen, Denmark. 21–23 August 2023. P. 1–6. DOI: 10.1109/PST58708.2023.10320177 13. RoBERTa: A Robustly Optimized BERT Pretraining Approach / Y. Liu, M. Ott, N. Goyal et al. [Электронный ресурс]. URL: https://openreview.net/forum?id=SyxS0T4tvS (дата обращения: 18.04.2025). 14. Breaking Down Barriers: Next-Generation Techniques for Segmenting Medical Abstract Text using DeBERTa-V3 / Anand A., Ahmad Rizvi S. W., Ravindhran S. et al. // 4th Asian Conference on Innovation in Technology (ASIANCON). Pimari Chinchwad, India. 23–25 August 2024. P. 1–5. DOI: 10.1109/ASIANCON62057.2024.10838006 15. Tural B., Örpek Z., Destan Z. Retrieval-Augmented Generation (RAG) and LLM Integration // 8th International Symposium on Innovative Approaches in Smart Technologies (ISAS). İstanbul, Turkiye, 06–07 December 2024. P. 1–5. DOI: 10.1109/ISAS64331.2024.10845308 16. A Resource-efficient Text-to-Text Transfer Transformer Encoder-based Vertical Hybrid Model for Malicious URLs Detection / Zhao Z., Chen J., Messou F. J. A. et al // IEEE 100th Vehicular Technology Conference (VTC2024-Fall). Washington, DC, USA. 07–10 October 2024. P. 1–6. DOI: 10.1109/VTC2024-Fall63153.2024.10757492 17. Phishing Email Dataset [Электронный ресурс]. 2025. URL: https://www.kaggle.com/datasets/naserabdullahalam/phishing-email-dataset (дата обращения: 19.04.2025). 18. Phishing Email Detection [Электронный ресурс]. 2025. URL: https://www.kaggle.com/datasets/subhajournal/phishingemails (дата обращения: 19.04.2025). 19. HuggingFace [Электронный ресурс]. 2025. URL: https://huggingface.co 20. Jishnu K. S., Arthi B. Phishing URL detection by leveraging RoBERTa for feature extraction and LSTM for classification // Second International Conference on Augmented Intelligence and Sustainable Systems (ICAISS), Trichy, India. 23–25 August 2023. P. 972–977. DOI: 10.1109/ICAISS58487.2023.10250684 21. Roumeliotis K. I., Tselikas N. D., Nasiopoulos D. K. Next-Generation Spam Filtering: Comparative Fine-Tuning of LLMs, NLPs, and CNN Models for Email Spam Classification [Электронный ресурс]. URL: https://www.mdpi.com/2079-9292/13/11/2034#metrics (дата обращения: 26.08.2025). 22. Alhuzali A., Alloqmani A., Aljabri M., Alharbi F. In-Depth Analysis of Phishing Email Detection: Evaluating the Performance of Machine Learning and Deep Learning Models Across Multiple Datasets [Электронный ресурс]. URL: https://www.mdpi.com/2076-3417/15/6/3396 (дата обращения: 26.08.2025).
1. Kornyukhina, S. P., & Laponina, O. R. (2023). Research of the capabilities of deep learning algorithms for protection against phishing attacks. International Journal of Open Information Technologies, 11(6), 163–174. [in Russian language] 2. Arkhipova, A. B., & Izhik, V. A. (2025). Application of machine learning methods for detecting phishing emails: Algorithms and approaches. Bezopasnost' Tsifrovykh Tekhnologii, (1), 70–85. [in Russian language] 3. Gibadullin, R. F., Lekomtsev, D. V., & Perukhin, M. Yu. (2020). Analysis of industrial network parameters using neural network processing. Iskusstvennyi Intellekt i Priniatie Reshenii, (1), 80–87. [in Russian language] 4. Gizatullin, Z. M., Gizatullin, R. M., & Mubarakov, R. R. (2024). Modeling interference in an electronic device under the influence of a pulsed magnetic field using an artificial neural network. Zhurnal Radioelektroniki, (5), 1–15. [in Russian language] 5. Check Point Research. (2025). Check Point Research reports highest increase of global cyber attacks seen in last two years. Retrieved April 4, 2025, from https://blog.checkpoint.com/research/check-point-research-reports-highest-increase-of-global-cyber-attacks-seen-in-last-two-years-a-30-increase-in-q2-2024-global-cyber-attacks/ 6. Verizon. (2025). 2024 Data Breach Investigations Report (DBIR). Retrieved March 10, 2025, from https://www.verizon.com/business/resources/Te3/reports/2024-dbir-data-breach-investigations-report.pdf 7. IBM. (2025). Cost of a Data Breach Report 2024. Retrieved March 10, 2025, from https://www.ibm.com/downloads/documents/us-en/107a02e94948f4ec 8. Gizatullin, Z. M., & Mubarakov, R. R. (2024). Prediction of electrostatic discharge interference in an electronic device using an artificial neural network. Zhurnal Radioelektroniki, (8), 1–13. [in Russian language] 9. Kotikov, N. M., Maksimova, E. A., & Rusakov, A. M. (2024). Using machine learning algorithms to recognize phishing resources. Natsional'naia Bezopasnost' i Strategicheskoe Planirovanie, (2), 13–24. [in Russian language] 10. Tumbinskaya, M. V., & Galiev, R. A. (2023). Fake news identification using a web resource based on neural networks. Programmnye Produkty i Sistemy, (4), 590–599. [in Russian language] 11. Tan, K. L., Lee, C. P., Lim, K. M., & Anbanan-then, K. S. M. (2022). Sentiment analysis with ensemble hybrid deep learning model. IEEE Access, 10, 103694–103704. https://doi.org/10.1109/ACCESS.2022.3210182 12. Staples, D., Hakak, S., & Cook, P. (2023). A comparison of machine learning algorithms for multilingual phishing detection. 2023 20th Annual International Conference on Privacy, Security and Trust (PST), 1–6. https://doi.org/10.1109/PST58708.2023.10320177 13. Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., & Stoyanov, V. (2019). RoBERTa: A robustly optimized BERT pretraining approach. Retrieved April 18, 2025, from https://openreview.net/forum?id=SyxS0T4tvS 14. Anand, A., Rizvi, S. W. A., Ravindhran, S., Mathew, A. A., Sreekumar, A., & Nambiar, S. (2024). Breaking down barriers: Next-generation techniques for segmenting medical abstract text using DeBERTa-V3. 2024 4th Asian Conference on Innovation in Technology (ASIANCON), 1–5. https://doi.org/10.1109/ASIANCON62057.2024.10838006 15. Tural, B., Örpek, Z., & Destan, Z. (2024). Retrieval-augmented generation (RAG) and LLM integration. 2024 8th International Symposium on Innovative Approaches in Smart Technologies (ISAS), 1–5. https://doi.org/10.1109/ISAS64331.2024.10845308 16. Zhao, Z., Chen, J., Messou, F. J. A., Zhao, Z., Qian, H., & Gao, L. (2024). A resource-efficient text-to-text transfer transformer encoder-based vertical hybrid model for malicious URLs detection. 2024 IEEE 100th Vehicular Technology Conference (VTC2024-Fall), 1–6. https://doi.org/10.1109/VTC2024-Fall63153.2024.10757492 17. Abdullah Alam, N. (2025). Phishing email dataset. Retrieved April 19, 2025, from https://www.kaggle.com/datasets/naserabdullahalam/phishing-email-dataset 18. Subhajournal. (2025). Phishing email detection. Retrieved April 19, 2025, from https://www.kaggle.com/datasets/subhajournal/phishingemails 19. Hugging Face. (2025). Hugging Face. Retrieved from https://huggingface.co 20. Jishnu, K. S., & Arthi, B. (2023). Phishing URL detection by leveraging RoBERTa for feature extraction and LSTM for classification. 2023 Second International Conference on Augmented Intelligence and Sustainable Systems (ICAISS), 972–977. https://doi.org/10.1109/ICAISS58487.2023.10250684 21. Roumeliotis, K. I., Tselikas, N. D., & Nasiopoulos, D. K. (2024). Next-generation spam filtering: Comparative fine-tuning of LLMs, NLPs, and CNN models for email spam classification. Electronics, 13(11), 2034. https://doi.org/10.3390/electronics13112034 22. Alhuzali, A., Alloqmani, A., Aljabri, M., & Alharbi, F. (2025). In-depth analysis of phishing email detection: Evaluating the performance of machine learning and deep learning models across multiple datasets. Applied Sciences, 15(6), 3396. https://doi.org/10.3390/app15063396
Статью можно приобрести в электронном виде (PDF формат).
Стоимость статьи 700 руб. (в том числе НДС 20%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.
После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.
Для заказа скопируйте doi статьи:
10.14489/vkit.2025.12.pp.049-058
и заполните форму
Отправляя форму вы даете согласие на обработку персональных данных.
.
This article is available in electronic format (PDF).
The cost of a single article is 700 rubles. (including VAT 20%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.
After depositing your payment on our bank account we send you file of the article by e-mail.
To order articles please copy the article doi:
10.14489/vkit.2025.12.pp.049-058
and fill out the form
.
|