Аналіз використання модернових embedding-моделей для автоматичного пошуку підсанкційних осіб на прикладі санкційного списку OFAC SDN
Files
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
UKR: У статті досліджується ефективність використання сучасних текстових ембединґів і варіацій їх навчання для «наївного» автоматичного пошуку підсанкційних осіб у фінансових транзакціях на прикладі санкційного списку OFAC SDN. Зростання вимог до комплаєнс-процедур та недоліки традиційних методів скринінгу (низька точність, обмежена масштабованість, фрагментарність даних) підкреслюють актуальність дослідження. Авторами запропоновано архітектуру системи, яка інтегрує векторні бази даних з API для Google Embeddings та Gemini API, використовуючи «наївний» підхід до обробки даних без складних процедур попередньої підготовки даних. Проведено експериментальну валідацію із застосуванням чотирьох стратегій векторизації (Stringified JSON, Stringified Non-Empty, Flattened Key-Value, Flattened Non-Empty) та різних типів завдань для ембединґ-моделей. Було порівняно результати з існуючими системами скринінгу, включаючи власну реалізацію OFAC. Отримані дані свідчать, що хоча «наївний» підхід забезпечує впевнені результати для подальшої обробки людиною або LLM (у рамках RAG-систем), але для повністю автоматизованих транзакційних систем, що працюють за пороговим значенням, потрібна більш складна попередня підготовка даних. Показано, що традиційні fuzzy-matching-алгоритми (Soundex, Jaro-Winkler), які застосовані у пошуку на сайті OFAC, забезпечують високу точність для імен, що точно збігаються із записами у санкційному списку. Проте їх ефективність знижується за транслітерації та варіацій у транслітерації, при цьому діапазони показників для істинно позитивних і хибнопозитивних результатів перекриваються, що ускладнює визначення єдиного граничного значення. Дослідження підкреслює потенціал модернових ембединґів для підвищення точності та масштабованості санкційного скринінгу, але вказує на необхідність подальшої оптимізації.
ENG: This article investigates the effectiveness of modern text embeddings and variations in their training for «aive» automatic detection of sanctioned individuals in financial transactions, using the OFAC SDN sanctions list as a case study. The increasing demands on compliance procedures, along with the limitations of traditional screening methods (low accuracy, limited scalability, fragmented data), highlight the relevance of this research. The authors propose a system architecture that integrates vector databases with the Google Embeddings API and the Gemini API, employing a «naive» approach to data processing that avoids complex preprocessing steps. An experimental validation was conducted using four vectorization strategies («Stringified JSON», «Stringified Non-Empty», «Flattened Key-Value», «Flattened Non-Empty») and different task types for embedding models. The results were compared with existing screening systems, including OFAC's own implementation. The findings indicate that, while the «naive» approach provides reliable results for further human or LLM-assisted processing (within RAG systems), fully automated transaction systems operating based on a threshold value require more sophisticated data preprocessing. It is shown that traditional fuzzy-matching algorithms (Soundex, Jaro-Winkler), as applied in the OFAC website search, achieve high accuracy for names that exactly match entries in the sanctions list. However, their effectiveness decreases with transliteration and variations thereof, and the score ranges for true positives and false positives overlap, complicating the selection of a single threshold value. The study highlights the potential of modern embeddings to improve the accuracy and scalability of sanctions screening, but also emphasizes the need for further optimization.
