Habr 10.04.2026 07:30 Инструменты разработки

Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества

Автор: Maslennikovig Оригинальный источник

GPT-5.4 пишет лучше всех — 97 баллов из 100. Но $0.10 за вызов. При 10 000 генераций в месяц — $1000. А мы нашли модель, которая справляется на 91% и стоит $0.0008. Те же 10 000 генераций — $8. Разница — $992 каждый месяц.Мы строим продукт, где LLM генерирует образовательный контент для клиентов. Публичные бенчмарки (MMLU, HumanEval, LMSYS) не помогают — они не тестируют генерацию длинных текстов на русском и не учитывают стоимость. Поэтому мы за свои $95 построили собственный battle test и прогнали через него 18 моделей.Что обнаружили: 7 из 18 моделей вставляют китайские иероглифы в русский текст. Одна копирует инструкции из промпта прямо в заголовки. А LLM-судья поставил сам себе 127 баллов из 100.В статье: полная методология, таблицы с результатами, формула value score (цена/качество), и открытый лидерборд.

Читать полностью в источнике

Связанные теги

0008 1000 Gpt 5 GPT-5.4 Habr LLM-агентов Production

Компании и люди

Gpt 5 GPT-5.4 Habr LLM-агентов Production

Линия сюжета

Gpt 5

Последние материалы и связанный контекст по теме Gpt 5.

GPT-5.4

Последние материалы и связанные ссылки по теме GPT-5.4.

GPT-5.4

Последние материалы и связанный контекст по теме GPT-5.4.

Habr

Последние материалы и связанные ссылки по теме Habr.

Habr

Последние материалы и связанный контекст по теме Habr.

LLM-агентов

Последние материалы и связанный контекст по теме LLM-агентов.

LLM-агентов

Последние материалы и связанные ссылки по теме LLM-агентов.

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

Habr 10.04.2026 09:43 Инструменты разработки

Реальный кейс: как «из-за розетки» строительная компания потеряла 730 дней на установку ПО

Клиент тщательно выбирал систему, но забыл подготовить инфраструктуру в организации. Разберем ошибку, последствия и как этого избежать.

Habr

Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Страницы сущностей

Линии сюжета

Встроенный блок в статье

Похожие статьи

Еще материалы от Habr

Дополнительное покрытие этой темы