Аналіз використання модернових embedding-моделей для автоматичного пошуку підсанкційних осіб на прикладі санкційного списку OFAC SDN

Павленко, Єгор Вікторович; Гнатушенко, Володимир Володимирович

doi:https://doi.org/10.32782/EIS/2025-108-9

Аналіз використання модернових embedding-моделей для автоматичного пошуку підсанкційних осіб на прикладі санкційного списку OFAC SDN

Files

Pavlenko.pdf (421.69 KB)

Date

2025

Authors

Павленко, Єгор Вікторович

Гнатушенко, Володимир Володимирович

Publisher

Видавничий дім «Гельветика»

Abstract

UKR: У статті досліджується ефективність використання сучасних текстових ембединґів і варіацій їх навчання для «наївного» автоматичного пошуку підсанкційних осіб у фінансових транзакціях на прикладі санкційного списку OFAC SDN. Зростання вимог до комплаєнс-процедур та недоліки традиційних методів скринінгу (низька точність, обмежена масштабованість, фрагментарність даних) підкреслюють актуальність дослідження. Авторами запропоновано архітектуру системи, яка інтегрує векторні бази даних з API для Google Embeddings та Gemini API, використовуючи «наївний» підхід до обробки даних без складних процедур попередньої підготовки даних. Проведено експериментальну валідацію із застосуванням чотирьох стратегій векторизації (Stringified JSON, Stringified Non-Empty, Flattened Key-Value, Flattened Non-Empty) та різних типів завдань для ембединґ-моделей. Було порівняно результати з існуючими системами скринінгу, включаючи власну реалізацію OFAC. Отримані дані свідчать, що хоча «наївний» підхід забезпечує впевнені результати для подальшої обробки людиною або LLM (у рамках RAG-систем), але для повністю автоматизованих транзакційних систем, що працюють за пороговим значенням, потрібна більш складна попередня підготовка даних. Показано, що традиційні fuzzy-matching-алгоритми (Soundex, Jaro-Winkler), які застосовані у пошуку на сайті OFAC, забезпечують високу точність для імен, що точно збігаються із записами у санкційному списку. Проте їх ефективність знижується за транслітерації та варіацій у транслітерації, при цьому діапазони показників для істинно позитивних і хибнопозитивних результатів перекриваються, що ускладнює визначення єдиного граничного значення. Дослідження підкреслює потенціал модернових ембединґів для підвищення точності та масштабованості санкційного скринінгу, але вказує на необхідність подальшої оптимізації.

ENG: This article investigates the effectiveness of modern text embeddings and variations in their training for «aive» automatic detection of sanctioned individuals in financial transactions, using the OFAC SDN sanctions list as a case study. The increasing demands on compliance procedures, along with the limitations of traditional screening methods (low accuracy, limited scalability, fragmented data), highlight the relevance of this research. The authors propose a system architecture that integrates vector databases with the Google Embeddings API and the Gemini API, employing a «naive» approach to data processing that avoids complex preprocessing steps. An experimental validation was conducted using four vectorization strategies («Stringified JSON», «Stringified Non-Empty», «Flattened Key-Value», «Flattened Non-Empty») and different task types for embedding models. The results were compared with existing screening systems, including OFAC's own implementation. The findings indicate that, while the «naive» approach provides reliable results for further human or LLM-assisted processing (within RAG systems), fully automated transaction systems operating based on a threshold value require more sophisticated data preprocessing. It is shown that traditional fuzzy-matching algorithms (Soundex, Jaro-Winkler), as applied in the OFAC website search, achieve high accuracy for names that exactly match entries in the sanctions list. However, their effectiveness decreases with transliteration and variations thereof, and the score ranges for true positives and false positives overlap, complicating the selection of a single threshold value. The study highlights the potential of modern embeddings to improve the accuracy and scalability of sanctions screening, but also emphasizes the need for further optimization.

Description

Є. Павленко: ORCID 0009-0004-0600-3090; Вол. Гнатушенко: ORCID 0000-0003-3140-3788

Keywords

санкційний скринінг, текстові ембединґи, штучний інтелект, семантичний пошук, фонетичний пошук, обробка природної мови, комплаєнс, sanctions screening, text embeddings, artificial intelligence, semantic search, phonetic search, natural language processing, compliance, КІТС

Citation

Павленко Є. В., Гнатушенко Вол. В. Аналіз використання модернових embedding-моделей для автоматичного пошуку підсанкційних осіб на прикладі санкційного списку OFAC SDN. Електротехнічні та інформаційні системи. 2025. № 108. C. 67–77. DOI: https://doi.org/10.32782/EIS/2025-108-9.

URI

https://journals.politehnica.dp.ua/index.php/eis/article/view/888
https://crust.ust.edu.ua/handle/123456789/21371

Collections

Статті КІТС (ДМетІ)

Creative Commons license

Except where otherwised noted, this item's license is described as Creative Commons Attribution 4.0 International License

Full item page

Аналіз використання модернових embedding-моделей для автоматичного пошуку підсанкційних осіб на прикладі санкційного списку OFAC SDN

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Creative Commons license