GigaChat-3.1: Большое обновление больших моделей
В ноябре мы выложили в open source preview-версии GigaChat-3-Ultra (702B MoE) и GigaChat-3-Lightning (10B MoE). С тех пор мы провели большую работу над нашими моделями, и сегодня выпускаем обновлённые GigaChat-3.1-Ultra и GigaChat-3.1-Lightning. По нашим замерам, Ultra обходит non-reasoning Qwen3-235B-A22B и DeepSee...
Погода сигнала
Стабильно
История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.
В ноябре мы выложили в open source preview-версии GigaChat-3-Ultra (702B MoE) и GigaChat-3-Lightning (10B MoE). С тех пор мы провели большую работу над нашими моделями, и сегодня выпускаем обновлённые GigaChat-3.1-Ultra и GigaChat-3.1-Lightning. По нашим замерам, Ultra обходит non-reasoning Qwen3-235B-A22B и DeepSeek-V3-0324 в математике и general reasoning, а Lightning на аренах с судьёй GPT-4.1 играет на уровне GPT-4o — при 1,8 млрд активных параметров. Модели, как и раньше, лежат на HuggingFace и GitVerse под MIT.Но этот пост — не только про числа в таблицах. Переезд на новую архитектуру дался нам нелегко: переход от Dense-моделей к MoE вскрыл несколько проблем, о которых мы раньше не думали. По дороге к релизу мы полностью победили проблему зацикливания генераций (и придумали для этого метрику на основе BPE-сжатия хвоста), перевели DPO-этап в нативный FP8, получив качество выше bf16 при вдвое меньшем потреблении памяти, нашли критичный баг в SGLang при dp > 1, который роняет качество, и выяснили, что GPT-OSS-120b — неожиданно хорошая замена проприетарным судьям на аренах. Под катом — подробности о каждом из этих сюжетов: что ломалось, какие гипотезы не сработали, и что в итоге помогло.
Оставайтесь в сигнале
Следить за темой «GigaChat-3.1: Большое обновление больших моделей»
Следите не только за этой публикацией, но и за её продолжением: новыми материалами, соседними источниками и развитием сюжета.
Карта темы
Понять тему за минуту
Быстрый вход в историю: почему она важна сейчас, кто в ней участвует и куда идти дальше за контекстом.
Почему это важно сейчас
Карта темы
Открыть живую карту этой истории
Посмотрите, какие сущности, линии сюжета, источники и follow-up материалы формируют эту историю прямо сейчас.
Нажимайте на узлы
Страницы сущностей
Линии сюжета
Story timeline
Продолжить следить за темой
Короткая линия событий и follow-up материалов, чтобы быстро понять ход темы.
Насколько можно опираться
Сигнал и надёжность Habr
Источник работает в быстрый ритме: 0% последних материалов попадают в горячее окно, а 0% дают выраженный поисковый сигнал.
Надёжность
10
Свежесть
22
Источников в сюжете
5
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Ugreen представила сетевые хранилища DXP6800 Ultra и DXP8800 Ultra на базе Intel Raptor Lake для малого бизнеса
Компания Ugreen, по сообщению ресурса NAS Compares, подготовила к выпуску сетевые хранилища DXP6800 Ultra и DXP8800 Ultra в «настольном» форм-факторе на аппаратной платформе Int...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
К 2028 году Apple обновит Mac Studio, оснастив систему процессором M7 Ultra
Представленная в начале 2025 года компактная настольная система Mac Studio оснащается процессорами M4 Max или M3 Ultra, но до конца года они должны уступить место более современ...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Apple запланировала на осень обновлённый MacBook Pro на чипе M6 и сенсорный MacBook Ultra на основе M5 Pro и Max
Планы Apple на выпуск ноутбуков начинают проясняться, и способствовала этому информация, которую получил аналитик Bloomberg Марк Гурман (Mark Gurman). Если верить неофициальным ...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Новая статья: Обзор робота-уборщика Midea VCR V15 MAX ULTRA: не разменивайся на мелочи (но не переплачивай)
По функциональности и техническим возможностям Midea VCR V15 MAX ULTRA мало в чем уступает прочим флагманским роботам-уборщикам, доступным на нашем рынке. Но вот парадокс: многи...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Промпты Nano Banana для фото и изображений: Бесплатно для Нано Банана Про
Создание безупречного визуала в Nano Banana — это не вопрос везения, а результат правильной коммуникации с нейросетью. В отличие от простых моделей прошлого, этот инструмент спо...
Погода сигнала
История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.
Почему сейчас
История уже пережила первый заголовок, но всё ещё активно развивается.
Пошаговая инструкция установки MTProto прокси через Service Node + VLESS
Если вы когда-нибудь пытались поднять прокси для Telegram на сервере, то знаете, что такое «мессенджер не грузит». В этой инструкции я предлагаю рассмотреть подробную, пошаговую...
Погода сигнала
История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.
Почему сейчас
История уже пережила первый заголовок, но всё ещё активно развивается.
Накрутка поведенческих факторов для роста позиций — реально ли за день занять топ 1 Яндекса
Знаете, можно много долго спорить о том, что вот там умеют делать, а наши ничего не умеют. Но подход Яндекса к формированию поисковой выдачи мне всегда импонировал больше, нежел...
Погода сигнала
История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.
Почему сейчас
История уже пережила первый заголовок, но всё ещё активно развивается.
Тени истории. Ренессанс – революция, подарившая миру главный инструмент шпионов
Вторая статья цикла о криптографии, в котором мы рассказываем, как человечество училось прятать и расшифровывать секреты — от древних методов до современных алгоритмов. Сегодня ...
Погода сигнала
История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.
Почему сейчас
История уже пережила первый заголовок, но всё ещё активно развивается.
Дополнительное покрытие этой темы
Похожие публикации и близкие по смыслу материалы по этой же теме.
«Сбер» в следующем году собрался выпустить собственный мессенджер — с чатами, звонками, видео, почтой, календарём, задачами и GigaChat
«Сбер» планирует запустить в 2027 году собственную коммуникационную платформу. Как ожидается, её тестирование завершат до конца этого года. Платформа объединит чаты, звонки, вид...
Погода сигнала
История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.
Почему сейчас
История уже пережила первый заголовок, но всё ещё активно развивается.
Антиспам на нейронках: Gemini Flash в 1000 раз дешевле чем GigaChat
Сравниваю бесплатные лимиты GigaChat, YandexGPT и Gemini Flash для реальной задачи: антиспам-бот в Telegram, 5000 сообщений в сутки. Считаю токены, потоки и рублики. Разница в л...
Погода сигнала
История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.
Почему сейчас
История уже пережила первый заголовок, но всё ещё активно развивается.
Попросил нейросети ChatGPT, DeepSeek и GigaChat собрать игровой ПК за 100 000 рублей. Кто справился лучше?
Не так давно мы провели эксперимент: скормили нейросети сотню сборок ПК с Хабра и попросили найти типичные ошибки. Получилось занятно, потому что проблемы обнаружились почти в к...
Погода сигнала
История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.
Почему сейчас
История уже пережила первый заголовок, но всё ещё активно развивается.
GigaChat 3 Ultra от Сбера, OpenAI закрыла Sora, ARC-AGI-3 сломал все модели, ИИ-агенты взломали корпоративные системы
Привет, это новый выпуск «Нейро-дайджеста» — коротких и полезных обзоров ключевых событий в мире искусственного интеллекта и технологий. Неделя вышла насыщенной: OpenAI закрывае...
Погода сигнала
История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.
Почему сейчас
История уже пережила первый заголовок, но всё ещё активно развивается.