| Русский Русский | English English |
   
Главная Текущий номер
24 | 02 | 2020
10.14489/vkit.2019.12.pp.040-045

DOI: 10.14489/vkit.2019.12.pp.040-045

Менщиков А. А., Гатчин Ю. А.
МЕТОД ОБНАРУЖЕНИЯ ВЕБ-РОБОТОВ НА ОСНОВЕ СЕМАНТИЧЕСКОГО АНАЛИЗА ПОСЕЩЕННЫХ СТРАНИЦ
(c. 40-45)

Аннотация. Рассмотрена проблема угрозы веб-роботов приватности данных, авторскому праву и их влияния на производительность, безопасность,  искажение статистики посещений. Возникла необходимость обнаружения и противодействия таким средствам. В отличие от существующих методик, использующих синтаксическую и аналитическую обработки логов веб-сервера для обнаружения веб-роботов, предложен анализ графа посещений веб-роботов с учётом времени, связности тематик посещенных страниц. Даны оценка точности и полноты обнаружения, а также проведено сравнение с результатами существующих подходов.

Ключевые слова:  веб-роботы; информационная безопасность; защита веб-ресурсов; парсеры; обнаружение веб-роботов; кластеризация по тематике; обработка текстов; защита информации.

 

Menshchikov A. A., Gatchin Yu. A.
SEMANTIC APPROACH FOR WEB-ROBOT DETECTION
(pp. 40-45)

Abstract. Today modern researches suggest that robotic traffic on web resources prevails over user traffic in terms of volume and intensity. Web robots threaten data privacy, copyright, as well as affect performance, security, and affect statistics. There is a need to develop efficient detection and protection methods against web robots. Existing techniques involve the use of syntactic and analytical processing of web server logs to detect web robots. This article proposes to analyze the graph of visits of web robots, taking into account the time, as well as the connectivity of topics of the visited pages. In the article we provide an algorithm for data selection and cleansing, extracting semantic features of pages on a web resource, as well as the proposed detection parameters. We describe in detail the process of forming the ground truth and the principles of existing sessions labelling to the legit and robotic types. It is proposed to use the capabilities of a web server to identify sessions uniquely. The clustering procedure and the selection of a suitable classification model are discussed. For each of the studied models, the selection of hyper parameters and cross-validation of the results are made. The analysis of performance and detection accuracy, as well as comparison with the results of existing approaches is provided. Empirical results of the proposed method on web-resources show that this method leads to better web robot detection accuracy and precision comparing with the existing approaches.

Keywords: Web-robots; Information security; Website protection; Parsers; Web-robot detection; Semantic clustering; Text processing; Information protection.

Рус

А. А. Менщиков, Ю. А. Гатчин (Национальный исследовательский университет ИТМО, Санкт-Петербург, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Eng

A. A. Menshchikov, Yu. A. Gatchin (ITMO University, Saint Petersburg, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  

Рус

1. A Soft Computing Approach for Benign and Malicious Web Robot Detection / M. Zabihimayvan et al. // Expert Systems with Applications. 2017. V. 87. P. 129 – 140.
2. A Study of Different Web-Crawler Behaviour / A.A. Menshchikov et al. // Proc. of the 20th Conference of Open Innovations Association FRUCT. St.-Petersburg, 3 – 7 April 2017. St.-Petersburg, Russia, 2017. P. 268 – 274.
3. Derek D., Swapna S. Gokhale. Web-robot Detection Techniques: Overview and Limitations // Data Mining and Knowledge Discovery. 2011. V. 22, Is. 1–2. P. 183 – 210.
4. OWASP Automated Threats to Web Applications [Электронный ресурс]. URL: https://www.owasp.org/ index.php/OWASP_Automated_Threats_to_Web_Applications free (дата обращения: 24.02.2019).
5. Doran D., Gokhale S. S. An Integrated Method for Real Time and Offline Web Robot Detection // Expert Systems. 2016. V. 33, No. 6. С. 592 – 606.
6. Derek D., Swapna Gokhale S. A Classification Framework for Web Robots // Journal of American Society of Information Science and Technology. 2012. V. 63. P. 2549 – 2554.
7. GeoLite2 [Электронный ресурс]. URL: https:// dev.maxmind.com/geoip/geoip2/geolite2 free (дата обращения: 24.02.2019).
8. Сравнение методов аутентификации на веб-ресурсах / А. А. Менщиков и др. // Вестник компьютерных и информационных технологий. 2017. № 8. C. 3 – 8.
9. Halfaker A. et al. User Session Identification Based on Strong Regularities in Interactivity Time // Proc. of the 24th International Conference on World Wide Web. 8 May 2015. Florence, Italy, 2015. P. 410 – 418.
10. Менщиков А. А., Комарова А. В., Гатчин Ю. А. Изучение поведения средств автоматизированного сбора информации с веб-ресурсов // Вопросы кибербезопасности. 2017. № 3(21). C. 49 – 54.
11. A Soft Computing Prefetcher to Mitigate Cache Degradation by Web Robots / Xie N. et al. // International Symposium on Neural Networks. Springer, Cham, 21 Jun. Sapporo, Japan, 2017. P. 536 – 546.
12. Doc2vec Paragraph Embeddings [Электронный ресурс]. URL: https://dev.maxmind.com/geoip/geoip2/ geolite2 free (дата обращения: 24.02.2019).

Eng

1. Zabihimayvan M. et al. (2017). A Soft Computing Approach for Benign and Malicious Web Robot Detection. Expert Systems with Applications, 87, pp. 129 – 140.
2. Menshchikov A., Komarova A., Gatchin Yu. A. et al. (2017). A Study of Different Web-Crawler Behaviour. Proc. of the 20th Conference of Open Innovations Association FRUCT. (pp. 268-274). St.-Petersburg, 3 – 7 April 2017. St.-Petersburg, Russia.
3. Derek Doran, Gokhale S. S. (2011). Web-robot Detection Techniques: Overview and Limitations. Data Mining and Knowledge Discovery, 22(1–2), pp. 183 – 210.
4. OWASP Automated Threats to Web Applications. Available at: https://www.owasp.org/ index.php/OWASP_Automated_Threats_to_Web_Applications free (Available at: 24.02.2019).
5. Doran D., Gokhale S. S. (2016). An Integrated Method for Real Time and Offline Web Robot Detection. Expert Systems, 33, No. 6. С. 592 – 606.
6. Derek D., Swapna Gokhale S. (2012). A Classification Framework for Web Robots. Journal of American Society of Information Science and Technology, 63, pp. 2549 – 2554.
7. GeoLite2. Available at: https:// dev.maxmind.com/geoip/geoip2/geolite2 free (Accessed: 24.02.2019).
8. Menshchikov A. A., Komarova A. V., Gatchin Iu. A., Korobeinikov A. G. (2017). Comparative study of different web authentication methods. Vestnik komp'iuternykh i informatsionnykh tekhnologyi, 158(8), pp. 3 – 8. DOI: 10.14489/vkit.2017.08.pp.003-008 [in Russian language]
9. Halfaker A. et al. (2015). User Session Identification Based on Strong Regularities in Interactivity Time. Proc. of the 24th International Conference on World Wide Web. 8 May 2015. Florence, Italy, pp. 410 – 418.
10. Menshchikov A. A., Komarova A. V., Gatchin Iu. A. (2017). Studying the behavior of automated data collection tools from web resources. Voprosy kiberbezopasnosti, 21(3), pp. 49 – 54. [in Russian language]
11. Xie N. et al. (2017). A Soft Computing Prefetcher to Mitigate Cache Degradation by Web Robots. International Symposium on Neural Networks. Springer, Cham, 21 Jun. Sapporo, Japan, pp. 536 – 546.
12. Doc2vec Paragraph Embeddings. Available at: https://dev.maxmind.com/geoip/geoip2/geolite2 free (Accessed: 24.02.2019).

Рус

Статью можно приобрести в электронном виде (PDF формат).

Стоимость статьи 350 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке.

После поступления денег на счет издательства, вам будет выслан электронный вариант статьи.

Для заказа скопируйте doi статьи:

10.14489/vkit.2019.12.pp.040-045

и заполните  форму 

Отправляя форму вы даете согласие на обработку персональных данных.

.

 

Eng

This article  is available in electronic format (PDF).

The cost of a single article is 350 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank.

After depositing your payment on our bank account we send you file of the article by e-mail.

To order articles please copy the article doi:

10.14489/vkit.2019.12.pp.040-045

and fill out the  form  

 

.

 

 

 
Поиск
Баннер
Баннер
Баннер
Журнал КОНТРОЛЬ. ДИАГНОСТИКА
Баннер
Баннер
Баннер
Rambler's Top100 Яндекс цитирования