Реставрация ruGPT-3 XL или как я вернул к жизни забытую русскую языковую модель
Несколько дней к ряду я занимался реставрацией легаси модели ai-forever/rugpt3xl, это классическая языковая модель от SberDevices на 1.3B параметров, крошка по современным меркам, на которой сберовцы обкатывали свои научные наработки аж в далёком 2021м году. Подробнее о ней можно почитать в статье “A family of pretr...
Несколько дней к ряду я занимался реставрацией легаси модели ai-forever/rugpt3xl, это классическая языковая модель от SberDevices на 1.3B параметров, крошка по современным меркам, на которой сберовцы обкатывали свои научные наработки аж в далёком 2021м году. Подробнее о ней можно почитать в статье “A family of pretrained transformer language models for Russian” на Google Scholar.Да, она foundation, то есть умеет только продолжать текст, не может выполнять инструкции или работать в режиме чата. Но обучена она на корпусе русского языка и этот самый русский генерит очень бодро. У неё есть две примечательные особенности: её обучали с нуля, архитектура представляет собой глубокую модификацию GPT-2.
Краткая сводка
Автор посвятил несколько дней восстановлению legacy‑модели ai‑forever/rugpt3xl — 1,3 млрд параметров, разработанной SberDevices в 2021 году. Это foundation‑модель, обученная с нуля на русском корпусе, представляющая собой глубокую модификацию архитектуры GPT‑2 и способная лишь продолжать текст.
Связанные теги
Компании и люди
Линия сюжета
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
[Перевод] Полный текст интервью Теренса Тао: Кеплер, Ньютон и подлинная природа математического открытия
Перевод на русский полного текста свежего (20 марта 2026) интервью Дваркешу Пателю интересного собеседника, Теренса Тао, величайшего математика нашего времени (разумеется, велич...
Кажется, во мне умирает программист
AI должен был сделать мою работу легче. Он сделал. Только вместе с этим куда-то пропало ощущение, что я вообще что-то создаю
Как найти работу продакт-менеджеру
Несколько раз в своей жизни, я был в ситуации, когда нужно было срочно искать работу и я навсегда запомнил таблицу из 500 откликов, которые я сделал без единого приглашения на с...
ПИД-регулятор — это весело
Давайте исследуем ПИД-регулятор через пень-колоду: FDTD, численное интегрирование, ракету и самобалансирующегося робота! Ворох нечитаемого кода! Мало не покажется
Какими инструментами пользуется бизнес-аналитик в 2026 году
Современный бизнес-аналитик 1С занимается не только сбором требований заказчика и передачей их разработчику. Эта роль стала шире: здесь требуются и навыки проектного управления,...
Как не устроиться в Яндекс на работу потратив 2 месяца
В середине января 2026 со мной связался рекрутер с заманчивым предложением присоединиться к команде Яндекс по программе Мультитрек. Мультитрек это просто: вы по одному месяцу ра...
Рекламный слот
Article monetization slot
Reserved for contextual monetization inside article pages.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
[Перевод] Полный текст интервью Теренса Тао: Кеплер, Ньютон и подлинная природа математического открытия
Перевод на русский полного текста свежего (20 марта 2026) интервью Дваркешу Пателю интересного собеседника, Теренса Тао, величайшего математика нашего времени (разумеется, велич...
Кажется, во мне умирает программист
AI должен был сделать мою работу легче. Он сделал. Только вместе с этим куда-то пропало ощущение, что я вообще что-то создаю
Как найти работу продакт-менеджеру
Несколько раз в своей жизни, я был в ситуации, когда нужно было срочно искать работу и я навсегда запомнил таблицу из 500 откликов, которые я сделал без единого приглашения на с...
ПИД-регулятор — это весело
Давайте исследуем ПИД-регулятор через пень-колоду: FDTD, численное интегрирование, ракету и самобалансирующегося робота! Ворох нечитаемого кода! Мало не покажется
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
[Перевод] Полный текст интервью Теренса Тао: Кеплер, Ньютон и подлинная природа математического открытия
Перевод на русский полного текста свежего (20 марта 2026) интервью Дваркешу Пателю интересного собеседника, Теренса Тао, величайшего математика нашего времени (разумеется, велич...
Кажется, во мне умирает программист
AI должен был сделать мою работу легче. Он сделал. Только вместе с этим куда-то пропало ощущение, что я вообще что-то создаю
Как найти работу продакт-менеджеру
Несколько раз в своей жизни, я был в ситуации, когда нужно было срочно искать работу и я навсегда запомнил таблицу из 500 откликов, которые я сделал без единого приглашения на с...
ПИД-регулятор — это весело
Давайте исследуем ПИД-регулятор через пень-колоду: FDTD, численное интегрирование, ракету и самобалансирующегося робота! Ворох нечитаемого кода! Мало не покажется