DOI: 10.14489/vkit.2021.04.pp.011-020

Визильтер Ю. В., Горбацевич В. С., Моисеенко А. С.
(с. 11-20)

Аннотация. Предложены архитектура и методика обучения глубокой сверточной нейронной сети (ГСНС) для одновременного обнаружения и распознавания лиц. Предлагаемый подход комбинирует идеи алгоритмов SSD (Single Shot Detector) и Faster R-CNN (Region proposal Convolutional Neural Networks). Обнаружение лиц происходит аналогично однопроходным алгоритмам обнаружения и далее с использованием слоев пулинга по зоне интереса строится биометрический шаблон при помощи отдельной ветки нейронной сети. Показано, что основная особенность алгоритма – высокая скорость обработки, не зависящая от числа лиц на входном изображении. При использовании базовой архитектуры ГСНС ResNet-34 время обнаружения лиц и построения биометрических шаблонов на изображении со 100 лицами составляет менее 13 мс. Тестирование на базе данных FDDB (Face Detection Dataset and Benchmark) и Fei Face DataBase показало, что предлагаемый подход может использоваться на практике для решения задач реидентификации в реальном времени.

Ключевые слова:  глубокие сверточные нейронные сети; биометрия; обнаружение лиц; поиск особых точек лица; построение биометрического шаблона.


Vizilter Yu. V., Gorbatsevich V. S., Moiseenko A. S.
(pp. 11-20)

Abstract. The paper proposes an architecture and training method of a deep convolutional neural network for simultaneous face detection and recognition. The implemented approach combines the ideas of SSD (Single Shot Detector) and Faster R-CNN (Region proposal Convolutional Neural Networks) algorithms. Face detection is performed similarly to single-stage detection algorithms, and then a biometric template is built by employing RoI (Region of Interest) pooling layers and using the separate branch of the neural network. Training process includes three stages: pretraining of thebasic CNN for face recognition on face images, fine-tuning by using RoI pooling on in painted face images, adding SSD layers and fine-tuning on face detection. Wherein, at the latter stage, training is performed by using shared layers technology for two databases simultaneously. The main feature of the algorithm is high processing speed, which does not depend on the number of faces in the input image. For example, in case of using ResNet-34 as the core architecture for the algorithm, the required time for detecting faces and building biometric templates on an image with 100 faces is less than 13 ms. For training purposes we use CASIA-WebFace for face recognition task and Wider Face for face detection task. Testing is performed on FDDB (Face Detection Dataset and Benchmark), since this database is closer to practical applications than Wider. As long as the main practical task the developed method is intended for is face reidentification, we use Fei Face DataBase for face recognition quality testing. We obtain TPR (True Positive Rate) = 0.928@1000 on FDDB Face DataBase and FAR (Face Acceptance Rate) = 0.03309@FRR (Face Rejection Rate) = 10–4. Therefore, the proposed algorithm allows solving face detection and reidentification tasks in real time with any number of faces on an input image.

Keywords: Deep convolutional neural networks; Biometrics; Face detection; Finding facial features; Biometric template.


Ю. В. Визильтер, В. С. Горбацевич, A. C. Моисеенко (ФГУП «Государственный научно-исследовательский институт авиационных систем» ГНЦ РФ, Москва, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  


Yu. V. Vizilter, V. S. Gorbatsevich, A. S. Moiseenko (State Research Institute of Aviation Systems State Scientific Center of Russian Federation, Moscow, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript  


