Оцінка впливу попередньої фільтрації на якість вибірки в RAG-системах з векторним пошуком

Клименко, Іван Вікторович; Лебідь, Євген Андрійович

doi:https://doi.org/10.34185/1991-7848.itmm.2026.01.035

Оцінка впливу попередньої фільтрації на якість вибірки в RAG-системах з векторним пошуком

Files

Klymenko.pdf (373.74 KB)

Date

2026

Authors

Клименко, Іван Вікторович

Лебідь, Євген Андрійович

Publisher

Український державний університет науки і технологій, ІВК «Системні технології», Дніпро

Abstract

UKR: В роботі проаналізовано сучасні підходи до оцінювання RAG‑систем, що поєднують векторний пошук і генерацію відповідей великими мовними моделями (LLM). Розглянуто класичні метрики якості вибірки та LLM‑орієнтовані метрики якості генерації, у тому числі в контексті фреймворків RAGAS, ARES, VERA та MIRAGE. Проведено машинний експеримент на базі Google Cloud Platform (GCP) Firestore колекції з векторним пошуком по датасету резюме ІТ‑фахівців, де порівнюються стандартний векторний пошук і пошук з попередньою фільтрацією за метаданими. Встановлено, що попередня фільтрація підвищує частку релевантних документів у контексті, зменшує затримку вибірки та дозволяє збільшувати розмір контексту без пропорційного погіршення якості генерації. Результати експерименту підтверджують залежність якості відповідей RAG‑систем від чистоти й релевантності контексту.

ENG: The paper analyzes modern approaches to evaluating Retrieval-Augmented Generation (RAG) systems that integrate vector search with answer generation by large language models (LLMs). It examines classical retrieval quality metrics alongside LLM-oriented generation quality metrics, including their application within frameworks such as RAGAS, ARES, VERA, and MIRAGE. A computational experiment was conducted using a Google Cloud Platform (GCP) Firestore collection with vector search over a dataset of IT professionals' CVs, comparing standard vector search against search enhanced by pre-filtering on metadata. The results demonstrate that pre-filtering increases the proportion of relevant documents in the context, reduces retrieval latency, and enables larger context sizes without proportional degradation in generation quality. The experimental findings confirm the dependence of RAG system answer quality on the purity and relevance of the retrieved context.

Description

І. Клименко: ORCID 0000-0001-5149-3974; Є Лебідь: ORCID 0009-0007-4277-2083

Keywords

комп’ютерні системи, інформаційні технології, інтелектуальний аналіз даних, штучний інтелект, машинний експеримент, генеративні мовні моделі, computer systems, information technologies, data mining, artificial intelligence, RAG, machine-based benchmarking, generative language models, КІТ

Citation

Клименко І. В., Лебідь Є. А. Оцінка впливу попередньої фільтрації на якість вибірки в RAG-системах з векторним пошуком. Інформаційні технології в металургії та машинобудуванні – ІТММ’2026 : тези доп. Міжнародної наук.-техн. конф. (м. Дніпро, 21-23 березня 2026 р.). Дніпро, 2026. C. 194–200. DOI: https://doi.org/10.34185/1991-7848.itmm.2026.01.035.

URI

https://journals.nmetau.edu.ua/index.php/itmm/uk/article/view/2419
https://crust.ust.edu.ua/handle/123456789/22440

Collections

Міжнародна науково-технічна конференція «Інформаційні технології в металургії та машинобудуванні. ІТММ'26»
Інші праці КІТ

Creative Commons license

Except where otherwised noted, this item's license is described as Creative Commons Attribution 4.0 International License

Full item page

Оцінка впливу попередньої фільтрації на якість вибірки в RAG-системах з векторним пошуком

Files

Date

Authors

Journal Title

Journal ISSN

Volume Title

Publisher

Abstract

Description

Keywords

Citation

URI

Collections

Endorsement

Review

Supplemented By

Referenced By

Creative Commons license