| 10.14489/vkit.2026.03.pp.044-049 |
|
DOI: 10.14489/vkit.2026.03.pp.044-049 Куриленко С. М. Аннотация. Рассмотрена проблема обеспечения конфиденциальности данных в системах семантического поиска на основе векторных эмбеддингов. Из векторных эмбеддингов возможно восстановление исходного текста с высокой точностью, а это создает риски утечки конфиденциальной информации при компрометации базы эмбеддингов. Существующие решения с использованием полного гомоморфного шифрования обеспечивают криптографическую защиту, но демонстрируют неприемлемую для практического применения производительность. Предложен новый гибридный метод, использующий случайные проекции для защиты векторной базы данных в сочетании с CKKS-шифрованием запросов и двухуровневым реранкингом. Разработана математическая модель, формализующая гарантии безопасности случайных проекций и доказывающая, что они создают информационно-теоретический барьер для восстановления исходного текста. Ключевые слова: гомоморфное шифрование; семантический поиск; обеспечение конфиденциальности; векторные эмбеддинги; восстановление текста; случайные проекции; приближенный поиск ближайших соседей.
Abstract. Modern semantic search systems built on vector embeddings face a critical security challenge: recent embedding inversion attacks have demonstrated that attackers can reconstruct most original text from stored embeddings with high accuracy, creating serious risks for confidential data exposure. Existing cryptographic solutions relying on fully homomorphic encryption (FHE) provide strong security guarantees but exhibit impractical latency, often exceeding ten seconds per query, which prevents their deployment in production environments. This paper introduces a novel hybrid method that achieves sub-second query latency while maintaining robust protection against text reconstruction attacks. The proposed approach employs random projections as a cryptographic primitive to protect the embedding database, combined with CKKS encryption for query privacy and two-stage reranking for result accuracy. A key theoretical contribution is the mathematical formalization demonstrating that random projections create an information-theoretic barrier preventing original text recovery. The reconstruction error induced by dimensionality reduction provably exceeds thresholds required for successful inversion attacks. Experimental validation confirms practical applicability: the system achieves 0.96-second latency per query, nearly twice as fast as standard CKKS ciphertext-ciphertext mode and significantly outperforming existing secure search systems. Search quality degradation remains below 5 % when using medium protection profiles. The hybrid architecture effectively balances security requirements, computational efficiency, and retrieval accuracy, enabling organizations in regulated industries to leverage semantic search technology while maintaining data confidentiality compliance. Keywords: Homomorphic encryption; Semantic search; Ensuring the confidentiality; Vector embeddings; Text reconstruction; Random projections; Approximate nearest neighbor search.
РусC. М. Куриленко (Московский физико-технический институт (национальный исследовательский университет), Москва, Россия) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript EngS. M. Kurilenko (Moscow Institute of Physics and Technology (National Research University), Moscow, Russia) E-mail: Этот e-mail адрес защищен от спам-ботов, для его просмотра у Вас должен быть включен Javascript
Рус1. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding // Proceedings of NAACL-HLT 2019. Minneapolis: Association for Computational Linguistics, 2019. P. 4171–4186. Eng1. Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT 2019), 4171–4186.
РусСтатью можно приобрести в электронном виде (PDF формат). Стоимость статьи 700 руб. (в том числе НДС 20%). После оформления заказа, в течение нескольких дней, на указанный вами e-mail придут счет и квитанция для оплаты в банке. После поступления денег на счет издательства, вам будет выслан электронный вариант статьи. Для заказа скопируйте doi статьи: 10.14489/vkit.2026.03.pp.044-049 Отправляя форму вы даете согласие на обработку персональных данных. .
EngThis article is available in electronic format (PDF). The cost of a single article is 700 rubles. (including VAT 20%). After you place an order within a few days, you will receive following documents to your specified e-mail: account on payment and receipt to pay in the bank. After depositing your payment on our bank account we send you file of the article by e-mail. To order articles please copy the article doi: 10.14489/vkit.2026.03.pp.044-049 and fill out the
.
|
Current Issue
Разработка концепции и создание сайта - ООО «Издательский дом «СПЕКТР»