Kimi K2.5 наступает на пятки GPT-5.4. И работает из России без VPN
Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один?Два ответа. Первый...
Бенчмарков сейчас – как нейросетей: каждую неделю новый. GPQA Diamond тестирует PhD-знания. Lexometrica проверяет фактическую точность. LLM Persuasion Benchmark – способность убеждать в дебатах. Chatbot Arena – предпочтения живых людей. Резонный вопрос: зачем ещё один?Два ответа. Первый: ценность бенчмарков – в перекрёстном подтверждении. GPT-5.4 – первое место у нас, в GPQA Diamond, в Lexometrica и в Persuasion Benchmark. Kimi K2.5 – шестое и у нас, и у Lexometrica. YandexGPT и GigaChat – внизу везде, где они вообще есть (в GPQA Diamond из 154 моделей – не попали). Четыре независимых бенчмарка – один и тот же вердикт.Второй – важнее. Мы не нашли ни одного систематического бенчмарка, который тестирует российские модели бок о бок с глобальными на практических задачах. Если знаете такой – напишите в комментариях.Наше исследование: 54 модели, 32 сценария на русском языке, промпты как пишет живой менеджер, два LLM-судьи с калибровкой. Обновление предыдущей статьи. Интерактивные результаты – на сайте. Детали по исследованию
Краткая сводка
В статье сравнивают 54 модели ИИ по 32 русскоязычным сценариям, где GPT‑5.4 занимает первое место, а Kimi K2.5 — шестое, а также отмечают отсутствие системных бенчмарков, сравнивающих российские модели с глобальными, предлагая свои результаты на сайте.
Связанные теги
Компании и люди
Линия сюжета
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Новый народный мессенджер России. Можно, а зачем?
Telegram практически заблокирован. Max — официальный, удобный, но его не хотят ставить даже те, кто в курсе, что именно VK-экосистема уже хранит половину их цифровой жизни. В эт...
Конец преимущества корпораций: как вайбкодинг уравнял малый бизнес с энтерпрайзом в автоматизации
Привет! Я Александр Петросян, продуктовый фулстек-разработчик в проектах по автоматизации бизнеса и автор курса по вайбкодингу в Практикуме. Последний год-два воочию наблюдаю ка...
FinOps на практике: когда облачный счет перестает быть черным ящиком
Меня зовут Дмитрий Деев, я руководитель отдела IT-инфраструктуры в Ви.Tech - IT-дочке ВсеИнструменты.ру. В рамках нашего подкаста я поговорил с Ильей Кочневым, директором сопров...
Пошаговые хлопоты: термодинамический рабочий процесс
В начале почти любого проекта приходится решать, как именно им управлять. Выбор сегодня огромен: от классического PMBOK до Kanban и гибких подходов. Но на практике этот выбор сл...
Эволюция участия ИИ в разработке и тестировании
Привет! Меня зовут Николай, я SDET в SimbirSoft. Это продолжение серии материалов о современных подходах к разработке и тестированию, и в этот раз мы поговорим о том, как искусс...
[Перевод] 37 советов и приемов по написанию качественных тестов для фронтенда
Мне нравится писать тесты. Написание теста и последующее обновление кода для его прохождения — всегда увлекательный процесс.Но нет ничего хуже, чем выяснение того, что проверяют...
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Новый народный мессенджер России. Можно, а зачем?
Telegram практически заблокирован. Max — официальный, удобный, но его не хотят ставить даже те, кто в курсе, что именно VK-экосистема уже хранит половину их цифровой жизни. В эт...
Конец преимущества корпораций: как вайбкодинг уравнял малый бизнес с энтерпрайзом в автоматизации
Привет! Я Александр Петросян, продуктовый фулстек-разработчик в проектах по автоматизации бизнеса и автор курса по вайбкодингу в Практикуме. Последний год-два воочию наблюдаю ка...
FinOps на практике: когда облачный счет перестает быть черным ящиком
Меня зовут Дмитрий Деев, я руководитель отдела IT-инфраструктуры в Ви.Tech - IT-дочке ВсеИнструменты.ру. В рамках нашего подкаста я поговорил с Ильей Кочневым, директором сопров...
Пошаговые хлопоты: термодинамический рабочий процесс
В начале почти любого проекта приходится решать, как именно им управлять. Выбор сегодня огромен: от классического PMBOK до Kanban и гибких подходов. Но на практике этот выбор сл...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Новый народный мессенджер России. Можно, а зачем?
Telegram практически заблокирован. Max — официальный, удобный, но его не хотят ставить даже те, кто в курсе, что именно VK-экосистема уже хранит половину их цифровой жизни. В эт...
Конец преимущества корпораций: как вайбкодинг уравнял малый бизнес с энтерпрайзом в автоматизации
Привет! Я Александр Петросян, продуктовый фулстек-разработчик в проектах по автоматизации бизнеса и автор курса по вайбкодингу в Практикуме. Последний год-два воочию наблюдаю ка...
FinOps на практике: когда облачный счет перестает быть черным ящиком
Меня зовут Дмитрий Деев, я руководитель отдела IT-инфраструктуры в Ви.Tech - IT-дочке ВсеИнструменты.ру. В рамках нашего подкаста я поговорил с Ильей Кочневым, директором сопров...
Пошаговые хлопоты: термодинамический рабочий процесс
В начале почти любого проекта приходится решать, как именно им управлять. Выбор сегодня огромен: от классического PMBOK до Kanban и гибких подходов. Но на практике этот выбор сл...