Habr 15.04.2026 08:40 Инструменты разработки Стабильно Тёпло

Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать

Погода сигнала

Стабильно

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Автор: dimakpa (Gramax) Оригинальный источник

Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать

Если вы делаете RAG-поиск по документации или базе знаний, то рано или поздно упираетесь в проблему: хорошо найти — это еще не хорошо ответить. База знаний, RAG, найденные чанки, LLM строит ответ. Но пользователь не знает ни про DCG, ни про Recall@10, ни про чанки вообще. Он видит только то, что написано в итоговом ответе. А проблемы начинаются именно здесь: модель может что-то проигнорировать, ответить на другом языке, добавить что-то от себя или выдать уверенный текст с иероглифами посередине. В прошлой статье мы разбирали, как улучшали сам retrieval: чанкование, метаданные, гибридный поиск, реранкинг. Но после того как с поиском более-менее разобрались, встал другой вопрос — как вообще понять, хороший ли ответ получает пользователь? Привет, меня зовут Дима, я делаю ИИ-функции в Gramax. В этой статье расскажу, как мы выстроили методику оценки ответов RAG-поиска. Заодно поделюсь, какая модель прямо сейчас дает лучший результат на наших задачах.

Читать полностью в источнике

Оставайтесь в сигнале

Следить за темой «Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать»

Следите не только за этой публикацией, но и за её продолжением: новыми материалами, соседними источниками и развитием сюжета.

Карта темы

Понять тему за минуту

Быстрый вход в историю: почему она важна сейчас, кто в ней участвует и куда идти дальше за контекстом.

Почему это важно сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.

У истории уже есть 6 связанных материала, поэтому отсюда легко перейти к продолжению темы.

Сюжет постоянно вращается вокруг Gramax, поэтому страницы сущностей дадут самый быстрый контекст.

Habr уже выпустил ещё 4 продолжения по этой теме.

Карта темы

Открыть живую карту этой истории

Посмотрите, какие сущности, линии сюжета, источники и follow-up материалы формируют эту историю прямо сейчас.

Нажимайте на узлы

Сущность Линия сюжета Материал Хаб Источник

Страницы сущностей

Gramax

Линии сюжета

Gramax

Последние материалы и связанный контекст по теме Gramax.

Habr

Последние материалы и связанные ссылки по теме Habr.

LLM-агентов

Последние материалы и связанные ссылки по теме LLM-агентов.

RAG

Последние материалы и связанные ссылки по теме RAG.

Story timeline

Продолжить следить за темой

Короткая линия событий и follow-up материалов, чтобы быстро понять ход темы.

19.06.2026 09:17 3DNews Hardware

Развитие небольших моделей ИИ для ПК угрожает OpenAI и Anthropic — часто они не хуже больших LLM

Американские исследователи выяснили, что компактные ИИ-модели (SLM), запускаемые на локальных компьютерах, способны эффективно выполнять ...

17.06.2026 06:16 Anti-Malware News

152-ФЗ и нейросети: какие данные нельзя бездумно отдавать ChatGPT

Пока компании массово подключают ChatGPT, Claude, DeepSeek и другие LLM к работе с договорами, тикетами, CRM и корпоративной почтой, мног...

16.06.2026 10:40 3DNews Software

Alibaba представила первый набор LLM для «воплощённого ИИ» — Qwen Robot Suite

Alibaba представила модели искусственного интеллекта Qwen, предназначенные для роботов. ИИ перестаёт быть прерогативой чат-ботов и даже И...

09.06.2026 19:37 ServerNews News

Orion soft представил платформу StarGuard AI для безопасной работы с ИИ

Российский разработчик Orion soft выпустил шлюз безопасности StarGuard AI, предназначенный для централизованной и контролируемой работы с...

01.06.2026 09:15 ServerNews News

ADATA представила решение TRUSTA AI Scaler Extended Memory Solution для расширения памяти в ИИ-системах

Бренд TRUSTA, принадлежащий компании ADATA Technology, анонсировал программно-аппаратную платформу AI Scaler Extended Memory Solution. Он...

15.04.2026 08:40 Habr

Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать

Если вы делаете RAG-поиск по документации или базе знаний, то рано или поздно упираетесь в проблему: хорошо найти — это еще не хорошо отв...

Насколько можно опираться

Сигнал и надёжность Habr

Источник работает в быстрый ритме: 0% последних материалов попадают в горячее окно, а 0% дают выраженный поисковый сигнал.

Рискованный

Надёжность

Свежесть

Источников в сюжете

Развитие небольших моделей ИИ для ПК угрожает OpenAI и Anthropic — часто они не хуже больших LLM

Американские исследователи выяснили, что компактные ИИ-модели (SLM), запускаемые на локальных компьютерах, способны эффективно выполнять большинство задач, возлагаемых сейчас на...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Anthropic Hardware LLM-агентов OpenAI

Читать статью Следить за историей

3dnews.ru

152-ФЗ и нейросети: какие данные нельзя бездумно отдавать ChatGPT

Anti-Malware News 17.06.2026 06:16 Кибербезопасность

Рост Горячо

152-ФЗ и нейросети: какие данные нельзя бездумно отдавать ChatGPT

Пока компании массово подключают ChatGPT, Claude, DeepSeek и другие LLM к работе с договорами, тикетами, CRM и корпоративной почтой, многие забывают об одной неприятной детали: ...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

152 Anti-Malware News ChatGPT Claude

Читать статью Следить за историей

anti-malware.ru

Alibaba представила первый набор LLM для «воплощённого ИИ» — Qwen Robot Suite

3DNews Software 16.06.2026 10:40 Большой тех

Рост Горячо

Alibaba представила первый набор LLM для «воплощённого ИИ» — Qwen Robot Suite

Alibaba представила модели искусственного интеллекта Qwen, предназначенные для роботов. ИИ перестаёт быть прерогативой чат-ботов и даже ИИ-агентов — новым рубежом технологии в м...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Alibaba LLM-агентов Qwen Qwen Robot

Читать статью Следить за историей

3dnews.ru

ServerNews News 09.06.2026 19:37 Корпоративный IT

Стабильно Тёпло

Orion soft представил платформу StarGuard AI для безопасной работы с ИИ

Российский разработчик Orion soft выпустил шлюз безопасности StarGuard AI, предназначенный для централизованной и контролируемой работы с большими языковыми моделями (LLM) в кор...

Погода сигнала

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Почему сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.

AI LLM-агентов Orion Orion Soft

Читать статью Следить за историей

servernews.ru

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника

Промпты Nano Banana для фото и изображений: Бесплатно для Нано Банана Про

Habr 16.04.2026 10:57 Инструменты разработки

Стабильно Тёпло

Промпты Nano Banana для фото и изображений: Бесплатно для Нано Банана Про

Создание безупречного визуала в Nano Banana — это не вопрос везения, а результат правильной коммуникации с нейросетью. В отличие от простых моделей прошлого, этот инструмент спо...

Погода сигнала

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Почему сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.

Banana Habr Nano Nano Banana

Читать статью Следить за историей

habr.com

Пошаговая инструкция установки MTProto прокси через Service Node + VLESS

Habr 16.04.2026 10:43 Инструменты разработки

Стабильно Тёпло

Пошаговая инструкция установки MTProto прокси через Service Node + VLESS

Если вы когда-нибудь пытались поднять прокси для Telegram на сервере, то знаете, что такое «мессенджер не грузит». В этой инструкции я предлагаю рассмотреть подробную, пошаговую...

Погода сигнала

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Почему сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.

Habr MTProto Node MTProto Panel MTProto-прокси

Читать статью Следить за историей

habr.com

Накрутка поведенческих факторов для роста позиций — реально ли за день занять топ 1 Яндекса

Habr 16.04.2026 10:36 Инструменты разработки

Стабильно Тёпло

Накрутка поведенческих факторов для роста позиций — реально ли за день занять топ 1 Яндекса

Знаете, можно много долго спорить о том, что вот там умеют делать, а наши ничего не умеют. Но подход Яндекса к формированию поисковой выдачи мне всегда импонировал больше, нежел...

Погода сигнала

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Почему сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.

Habr

Читать статью Следить за историей

habr.com

Тени истории. Ренессанс – революция, подарившая миру главный инструмент шпионов

Habr 16.04.2026 10:35 Инструменты разработки

Стабильно Тёпло

Тени истории. Ренессанс – революция, подарившая миру главный инструмент шпионов

Вторая статья цикла о криптографии, в котором мы рассказываем, как человечество училось прятать и расшифровывать секреты — от древних методов до современных алгоритмов. Сегодня ...

Погода сигнала

История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.

Почему сейчас

История уже пережила первый заголовок, но всё ещё активно развивается.

Habr

Читать статью Следить за историей

habr.com

Краткая сводка

В статье описывается, как команда Gramax перешла от субъективной оценки качества ответов RAG‑поиска к систематическому измерению с использованием метрик, и представлена их методика оценки вместе с рекомендацией модели, демонстрирующей наилучшие результаты на их задачах.

Связанные теги

DCG Habr LLM-агентов RAG Recall

Компании и люди

Gramax

Линия сюжета

Gramax

Последние материалы и связанный контекст по теме Gramax.

Habr

Последние материалы и связанные ссылки по теме Habr.

LLM-агентов

Последние материалы и связанные ссылки по теме LLM-агентов.

RAG

Последние материалы и связанные ссылки по теме RAG.

Рекламный слот

Встроенный блок в статье

Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.

Партнерский слот

Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать

Следить за темой «Как мы перестали мерить качество ответов RAG-поиска «на глаз» и начали нормально сравнивать»

Понять тему за минуту

Почему это важно сейчас

Открыть живую карту этой истории

Страницы сущностей

Линии сюжета

Продолжить следить за темой

Сигнал и надёжность Habr

Похожие статьи

Еще материалы от Habr