Огляд сучасних фреймворків та метрик оцінки RAG-систем
Files
Date
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
UKR: Актуальність дослідження зумовлена стрімким поширенням RAG-систем у пошукових і генеративних задачах, де якість відповіді залежить як від релевантності відібраного контексту, так і від коректності його використання генеративною мовною моделлю. Метою дослідження є огляд сучасних фреймворків оцінювання RAG-систем та метрик і проведення експериментальної перевірки впливу якості вибірки на показники генерації. У роботі проведено аналіз наукових публікацій, порівняння самих фреймворків оцінювання, машинний експеримент на основі систем векторного пошуку з подальшою генерацією відповіді. Для оцінки впливу фільтрації на якість вибірки та формування контексту виконано порівняння стандартного векторного пошуку та пошуку з попередньою фільтрацією. Отримані результати підтверджують, що оцінювання систем RAG має враховувати як метрики вибірки, так і метрики генерації, оскільки збільшення контексту без зменшення шуму не гарантує покращення якості відповіді.
ENG: The relevance of the study is driven by the rapid proliferation of RAG systems in search and generative tasks, where response quality depends on both the relevance of the retrieved context and the correctness of its utilization by generative language model. The objective of the research is to review modern metrics and frameworks for evaluating RAG systems and experimentally verify the impact of retrieval quality on generation metrics. The study analyzes scientific publications, compares evaluation frameworks, and conducts a machine experiment using a vector search system followed by response generation. To evaluate the impact of filtering on retrieval quality and context formation, we compare standard vector search with pre-filtered search. The obtained results confirm that RAG system evaluation must account for both retrieval and generation metrics, as increasing context size without reducing noise does not guarantee improved response quality.
