10.14489/vkit.2019.12.pp.040-045 |
DOI: 10.14489/vkit.2019.12.pp.040-045 Менщиков А. А., Гатчин Ю. А. Аннотация. Рассмотрена проблема угрозы веб-роботов приватности данных, авторскому праву и их влияния на производительность, безопасность, искажение статистики посещений. Возникла необходимость обнаружения и противодействия таким средствам. В отличие от существующих методик, использующих синтаксическую и аналитическую обработки логов веб-сервера для обнаружения веб-роботов, предложен анализ графа посещений веб-роботов с учётом времени, связности тематик посещенных страниц. Даны оценка точности и полноты обнаружения, а также проведено сравнение с результатами существующих подходов. Ключевые слова: веб-роботы; информационная безопасность; защита веб-ресурсов; парсеры; обнаружение веб-роботов; кластеризация по тематике; обработка текстов; защита информации.
Menshchikov A. A., Gatchin Yu. A. Abstract. Today modern researches suggest that robotic traffic on web resources prevails over user traffic in terms of volume and intensity. Web robots threaten data privacy, copyright, as well as affect performance, security, and affect statistics. There is a need to develop efficient detection and protection methods against web robots. Existing techniques involve the use of syntactic and analytical processing of web server logs to detect web robots. This article proposes to analyze the graph of visits of web robots, taking into account the time, as well as the connectivity of topics of the visited pages. In the article we provide an algorithm for data selection and cleansing, extracting semantic features of pages on a web resource, as well as the proposed detection parameters. We describe in detail the process of forming the ground truth and the principles of existing sessions labelling to the legit and robotic types. It is proposed to use the capabilities of a web server to identify sessions uniquely. The clustering procedure and the selection of a suitable classification model are discussed. For each of the studied models, the selection of hyper parameters and cross-validation of the results are made. The analysis of performance and detection accuracy, as well as comparison with the results of existing approaches is provided. Empirical results of the proposed method on web-resources show that this method leads to better web robot detection accuracy and precision comparing with the existing approaches. Keywords: Web-robots; Information security; Website protection; Parsers; Web-robot detection; Semantic clustering; Text processing; Information protection.
РусА. А. Менщиков, Ю. А. Гатчин (Национальный исследовательский университет ИТМО, Санкт-Петербург, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript EngA. A. Menshchikov, Yu. A. Gatchin (ITMO University, Saint Petersburg, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
Рус1. A Soft Computing Approach for Benign and Malicious Web Robot Detection / M. Zabihimayvan et al. // Expert Systems with Applications. 2017. V. 87. P. 129 – 140. Eng1. Zabihimayvan M. et al. (2017). A Soft Computing Approach for Benign and Malicious Web Robot Detection. Expert Systems with Applications, 87, pp. 129 – 140.
РусСтатью можно приобрести в электронном виде (PDF формат). Стоимость статьи 350 руб. (в том числе НДС 18%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке. После поступления денег на счет издательства, вам будет выслан электронный вариант статьи. Для заказа скопируйте doi статьи: 10.14489/vkit.2019.12.pp.040-045 Отправляя форму вы даете согласие на обработку персональных данных. .
EngThis article is available in electronic format (PDF). The cost of a single article is 350 rubles. (including VAT 18%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank. After depositing your payment on our bank account we send you file of the article by e-mail. To order articles please copy the article doi: 10.14489/vkit.2019.12.pp.040-045 and fill out the
.
|