GigaChat-3.1: Большое обновление больших моделей
В ноябре мы выложили в open source preview-версии GigaChat-3-Ultra (702B MoE) и GigaChat-3-Lightning (10B MoE). С тех пор мы провели большую работу над нашими моделями, и сегодня выпускаем обновлённые GigaChat-3.1-Ultra и GigaChat-3.1-Lightning. По нашим замерам, Ultra обходит non-reasoning Qwen3-235B-A22B и DeepSee...
В ноябре мы выложили в open source preview-версии GigaChat-3-Ultra (702B MoE) и GigaChat-3-Lightning (10B MoE). С тех пор мы провели большую работу над нашими моделями, и сегодня выпускаем обновлённые GigaChat-3.1-Ultra и GigaChat-3.1-Lightning. По нашим замерам, Ultra обходит non-reasoning Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и general reasoning, а Lightning на аренах с судьёй GPT-4.1 играет на уровне GPT-4o — при 1,8 млрд активных параметров. Модели, как и раньше, лежат на HuggingFace и GitVerse под MIT.Но этот пост — не только про числа в таблицах. Переезд на новую архитектуру дался нам нелегко: переход от Dense-моделей к MoE вскрыл несколько проблем, о которых мы раньше не думали. По дороге к релизу мы полностью победили проблему зацикливания генераций (и придумали для этого метрику на основе BPE-сжатия хвоста), перевели DPO-этап в нативный FP8, получив качество выше bf16 при вдвое меньшем потреблении памяти, нашли критичный баг в SGLang при dp > 1, который роняет качество, и выяснили, что GPT-OSS-120b — неожиданно хорошая замена проприетарным судьям на аренах. Под катом — подробности о каждом из этих сюжетов: что ломалось, какие гипотезы не сработали, и что в итоге помогло.
Краткая сводка
Сегодня опубликованы обновлённые модели GigaChat-3.1-Ultra (702 B MoE) и GigaChat-3.1-Lightning (10 B MoE), которые по внутренним замерам превосходят Qwen3‑235B‑A22B, DeepSeek‑V3‑0324 и работают на уровне GPT‑4o при 1,8 млрд активных параметров. При их выпуске решены проблемы зацикливания генераций, реализован DPO в FP8, исправлен баг SGLang и обнаружена эффективность GPT‑OSS‑120b как замены проприетарных судей.
Связанные теги
Компании и люди
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Страницы сущностей
Рекламный слот
Article monetization slot
Reserved for contextual monetization inside article pages.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Строим перспективу по изображению
Преобразование Хафа, оператор Собеля и немного линейной алгебры: как я добавил в приложение автоматическое построение перспективы по изображению.
Сложно о простом. Все, что бы вы хотели знать о SFP модулях. Часть 4. Альтернатива SFP (DAC AOC) и пассивные компоненты
Приветствую, коллеги! Это опять @ProstoKirReal. В прошлых статьях я с вами обсуждал работу и историю развития SFP-модулей, а также оптические кабели:В данной статье я бы хотел о...
BRIN, GIN, B‑Tree: полный гайд по индексам PostgreSQL для highload
Индексы есть, а запросы всё равно тормозят? Или наоборот — индексов слишком много, и они только увеличивают нагрузку на запись?Многие разработчики и администраторы баз данных по...
Обзор конструкции и работы портативного ультразвукового прибора для прослушивания сердцебиения (Fetal Doppler)
Листая на досуге интернет-сервис для размещения объявлений («Авито», не для рекламы) обнаружил, что продаётся много бывших в употреблении устройств с названием типа: «Ультразвук...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Строим перспективу по изображению
Преобразование Хафа, оператор Собеля и немного линейной алгебры: как я добавил в приложение автоматическое построение перспективы по изображению.
Сложно о простом. Все, что бы вы хотели знать о SFP модулях. Часть 4. Альтернатива SFP (DAC AOC) и пассивные компоненты
Приветствую, коллеги! Это опять @ProstoKirReal. В прошлых статьях я с вами обсуждал работу и историю развития SFP-модулей, а также оптические кабели:В данной статье я бы хотел о...
BRIN, GIN, B‑Tree: полный гайд по индексам PostgreSQL для highload
Индексы есть, а запросы всё равно тормозят? Или наоборот — индексов слишком много, и они только увеличивают нагрузку на запись?Многие разработчики и администраторы баз данных по...
Обзор конструкции и работы портативного ультразвукового прибора для прослушивания сердцебиения (Fetal Doppler)
Листая на досуге интернет-сервис для размещения объявлений («Авито», не для рекламы) обнаружил, что продаётся много бывших в употреблении устройств с названием типа: «Ультразвук...