Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать
Если вы делаете RAG-поиск по документации или базе знаний, то рано или поздно упираетесь в проблему: хорошо найти — это еще не хорошо ответить. База знаний, RAG, найденные чанки, LLM строит ответ. Но пользователь не знает ни про DCG, ни про Recall@10, ни про чанки вообще. Он видит только то, что написано в итоговом о...
Погода сигнала
Рост
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Если вы делаете RAG-поиск по документации или базе знаний, то рано или поздно упираетесь в проблему: хорошо найти — это еще не хорошо ответить. База знаний, RAG, найденные чанки, LLM строит ответ. Но пользователь не знает ни про DCG, ни про Recall@10, ни про чанки вообще. Он видит только то, что написано в итоговом ответе. А проблемы начинаются именно здесь: модель может что-то проигнорировать, ответить на другом языке, добавить что-то от себя или выдать уверенный текст с иероглифами посередине. В прошлой статье мы разбирали, как улучшали сам retrieval: чанкование, метаданные, гибридный поиск, реранкинг. Но после того как с поиском более-менее разобрались, встал другой вопрос — как вообще понять, хороший ли ответ получает пользователь? Привет, меня зовут Дима, я делаю ИИ-функции в Gramax. В этой статье расскажу, как мы выстроили методику оценки ответов RAG-поиска. Заодно поделюсь, какая модель прямо сейчас дает лучший результат на наших задачах.
Карта темы
Понять тему за минуту
Быстрый вход в историю: почему она важна сейчас, кто в ней участвует и куда идти дальше за контекстом.
Почему это важно сейчас
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Какие сервисы для приёма криптовалюты для бизнеса лучше
Геополитическая картина мира меняется прямо на глазах: события в Иране и Западной Азии ускоряют конец петродоллара и переход к новой системе международных расчётов. Какой она бу...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
OpenTelemetry и Sentry: как мы выстроили сбор телеметрии в микросервисной системе
В распределенной системе понять, что именно произошло во время выполнения запроса, бывает сложнее, чем исправить саму ошибку. Логи показывают события по отдельности, метрики — о...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Сервинг модели Grounding DINO с BentoML
Готовь сани летом, а план доставки ML-модели конечным пользователям — еще на этапе разработки. Иначе даже самая крутая обученная система будет пылиться без дела, а большинство п...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Как мы подружили QA и unit-тесты через Allure (и встроили их в регресс)
Всем привет! Меня зовут Артем. Я Android QA Engineer в команде Банки.ру. Было ли у вас такое, что unit-тесты в проекте есть, но на практике ими почти никто не пользуется? Разраб...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Pipeline Triad Pattern: конвейер AI-агентов вместо команды разработки
Один AI-агент может закрывать работу одного специалиста. Следующий шаг - собрать из таких агентов конвейер. Pipeline Triad Pattern - это модель enterprise-разработки, где каждый...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Чему нас могут научить бессмертные? Как Древние мифы решают взрослые проблемы
Кровосмешение, поедание детей, похищение женщин, изувечивание мужчин, обман и предательство — так началось мое утро семиклассницы на уроке литературы 20 лет назад. Темой недели ...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Какие сервисы для приёма криптовалюты для бизнеса лучше
Геополитическая картина мира меняется прямо на глазах: события в Иране и Западной Азии ускоряют конец петродоллара и переход к новой системе международных расчётов. Какой она бу...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
OpenTelemetry и Sentry: как мы выстроили сбор телеметрии в микросервисной системе
В распределенной системе понять, что именно произошло во время выполнения запроса, бывает сложнее, чем исправить саму ошибку. Логи показывают события по отдельности, метрики — о...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Сервинг модели Grounding DINO с BentoML
Готовь сани летом, а план доставки ML-модели конечным пользователям — еще на этапе разработки. Иначе даже самая крутая обученная система будет пылиться без дела, а большинство п...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Как мы подружили QA и unit-тесты через Allure (и встроили их в регресс)
Всем привет! Меня зовут Артем. Я Android QA Engineer в команде Банки.ру. Было ли у вас такое, что unit-тесты в проекте есть, но на практике ими почти никто не пользуется? Разраб...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Какие сервисы для приёма криптовалюты для бизнеса лучше
Геополитическая картина мира меняется прямо на глазах: события в Иране и Западной Азии ускоряют конец петродоллара и переход к новой системе международных расчётов. Какой она бу...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
OpenTelemetry и Sentry: как мы выстроили сбор телеметрии в микросервисной системе
В распределенной системе понять, что именно произошло во время выполнения запроса, бывает сложнее, чем исправить саму ошибку. Логи показывают события по отдельности, метрики — о...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Сервинг модели Grounding DINO с BentoML
Готовь сани летом, а план доставки ML-модели конечным пользователям — еще на этапе разработки. Иначе даже самая крутая обученная система будет пылиться без дела, а большинство п...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Как мы подружили QA и unit-тесты через Allure (и встроили их в регресс)
Всем привет! Меня зовут Артем. Я Android QA Engineer в команде Банки.ру. Было ли у вас такое, что unit-тесты в проекте есть, но на практике ими почти никто не пользуется? Разраб...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.