News Grower

Независимое покрытие AI, стартапов и технологий.

Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества

GPT-5.4 пишет лучше всех — 97 баллов из 100. Но $0.10 за вызов. При 10 000 генераций в месяц — $1000. А мы нашли модель, которая справляется на 91% и стоит $0.0008. Те же 10 000 генераций — $8. Разница — $992 каждый месяц.Мы строим продукт, где LLM генерирует образовательный контент для клиентов. Публичные бенчмарки...

Автор: Maslennikovig Оригинальный источник
Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества

GPT-5.4 пишет лучше всех — 97 баллов из 100. Но $0.10 за вызов. При 10 000 генераций в месяц — $1000. А мы нашли модель, которая справляется на 91% и стоит $0.0008. Те же 10 000 генераций — $8. Разница — $992 каждый месяц.Мы строим продукт, где LLM генерирует образовательный контент для клиентов. Публичные бенчмарки (MMLU, HumanEval, LMSYS) не помогают — они не тестируют генерацию длинных текстов на русском и не учитывают стоимость. Поэтому мы за свои $95 построили собственный battle test и прогнали через него 18 моделей.Что обнаружили: 7 из 18 моделей вставляют китайские иероглифы в русский текст. Одна копирует инструкции из промпта прямо в заголовки. А LLM-судья поставил сам себе 127 баллов из 100.В статье: полная методология, таблицы с результатами, формула value score (цена/качество), и открытый лидерборд.

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

Реальный кейс: как «из-за розетки» строительная компания потеряла 730 дней на установку ПО

Реальный кейс: как «из-за розетки» строительная компания потеряла 730 дней на установку ПО

Клиент тщательно выбирал систему, но забыл подготовить инфраструктуру в организации. Разберем ошибку, последствия и как этого избежать.

CoreBus — универсальный Modbus терминал

CoreBus — универсальный Modbus терминал

CoreBus — кроссплатформенный терминал для работы с COM-портами и TCP-сокетами с поддержкой протоколов Modbus TCP / RTU / ASCII и много чего еще.Приложение развивается уже доволь...

О целях вещей, или Система разработки умных устройств с фреймворком Jobs to be done

О целях вещей, или Система разработки умных устройств с фреймворком Jobs to be done

Салют, Хабр!Есть продуктовые идеи, а есть потребности людей, которые полностью не закрывает ни одно решение на рынке. И их очень важно различать. Особенно когда создаёшь умные у...

Второй день конференции DataFusion и общие впечатления от мероприятия 2026 в кластере Ломоносов

Второй день конференции DataFusion и общие впечатления от мероприятия 2026 в кластере Ломоносов

На второй день конференции больше упора мы сделали на секцию, где рассматривалось железо. Говорили о проблемах в импортозамещении, о вопросах замены Cuda-единиц для вычислений н...

Превращаем базу знаний компании из архива в актив

Превращаем базу знаний компании из архива в актив

В крупном бизнесе нет роскоши «делать всё индивидуально», когда речь доходит до знаний и вхождения в должность или процессы (онбординга). Каждый новый руководитель, менеджер по ...

Росгосстрах и драконы: чем полезны НРИ на работе

Росгосстрах и драконы: чем полезны НРИ на работе

Меня зовут Полина, я 9 лет работаю в РГС, и почти два года из них вожу настольно-ролевые игры в нашей компании. За это время мы успели побывать волшебными котятами в Хогвартсе, ...

Рекламный слот

Встроенный блок в статье

Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.

Партнерский слот

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Реальный кейс: как «из-за розетки» строительная компания потеряла 730 дней на установку ПО

Реальный кейс: как «из-за розетки» строительная компания потеряла 730 дней на установку ПО

Клиент тщательно выбирал систему, но забыл подготовить инфраструктуру в организации. Разберем ошибку, последствия и как этого избежать.

CoreBus — универсальный Modbus терминал

CoreBus — универсальный Modbus терминал

CoreBus — кроссплатформенный терминал для работы с COM-портами и TCP-сокетами с поддержкой протоколов Modbus TCP / RTU / ASCII и много чего еще.Приложение развивается уже доволь...

О целях вещей, или Система разработки умных устройств с фреймворком Jobs to be done

О целях вещей, или Система разработки умных устройств с фреймворком Jobs to be done

Салют, Хабр!Есть продуктовые идеи, а есть потребности людей, которые полностью не закрывает ни одно решение на рынке. И их очень важно различать. Особенно когда создаёшь умные у...

Второй день конференции DataFusion и общие впечатления от мероприятия 2026 в кластере Ломоносов

Второй день конференции DataFusion и общие впечатления от мероприятия 2026 в кластере Ломоносов

На второй день конференции больше упора мы сделали на секцию, где рассматривалось железо. Говорили о проблемах в импортозамещении, о вопросах замены Cuda-единиц для вычислений н...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
Реальный кейс: как «из-за розетки» строительная компания потеряла 730 дней на установку ПО

Реальный кейс: как «из-за розетки» строительная компания потеряла 730 дней на установку ПО

Клиент тщательно выбирал систему, но забыл подготовить инфраструктуру в организации. Разберем ошибку, последствия и как этого избежать.

CoreBus — универсальный Modbus терминал

CoreBus — универсальный Modbus терминал

CoreBus — кроссплатформенный терминал для работы с COM-портами и TCP-сокетами с поддержкой протоколов Modbus TCP / RTU / ASCII и много чего еще.Приложение развивается уже доволь...

О целях вещей, или Система разработки умных устройств с фреймворком Jobs to be done

О целях вещей, или Система разработки умных устройств с фреймворком Jobs to be done

Салют, Хабр!Есть продуктовые идеи, а есть потребности людей, которые полностью не закрывает ни одно решение на рынке. И их очень важно различать. Особенно когда создаёшь умные у...

Второй день конференции DataFusion и общие впечатления от мероприятия 2026 в кластере Ломоносов

Второй день конференции DataFusion и общие впечатления от мероприятия 2026 в кластере Ломоносов

На второй день конференции больше упора мы сделали на секцию, где рассматривалось железо. Говорили о проблемах в импортозамещении, о вопросах замены Cuda-единиц для вычислений н...

Дополнительное покрытие этой темы

Похожие публикации и близкие по смыслу материалы по этой же теме.

Архитектура мультиканального Discord/Telegram voice-бота на Spring Boot: архитектура, грабли и production-решения

Архитектура мультиканального Discord/Telegram voice-бота на Spring Boot: архитектура, грабли и production-решения

Как я собрал мультиканального voice-бота на Spring Boot, который объединяет Discord, Telegram и веб-панель в одной системе.Разбираю архитектуру, работу с голосом (TTS, запись ка...

Мультиагентная система без LangChain: почему абстракции ломаются и как строить production на чистом Python

Мультиагентная система без LangChain: почему абстракции ломаются и как строить production на чистом Python

LangChain обещает: переключите модель одной строкой, подключите RAG за две. У меня в production мультиагентная система с RAG, CRM и тремя мессенджерами — и я построил её без Lan...

vLLM Production Stack. Часть 1: Базовые возможности vLLM

vLLM Production Stack. Часть 1: Базовые возможности vLLM

Статья будет о том, как быстро начать работать с vLLM и vLLM Production Stack: от первого запуска модели до базовых режимов инференса через OpenAI-совместимый API. Разберем прак...