ruGPT3XL идёт в качалку / поднимаем контекст до 8k
Это продолжение предыдущей публикации про реставрацию ruGPT3XL. Для тех кто не читал, кратенько, я конвертировал древний Megatron-LM чекпоинт в HuggingFace-формат, залил веса на HF, накатил поддержку GGUF в llama.cpp и подумал, что всё. Но нет.По ходу тестов, проведённых разными людьми удалось выявить ряд недоработо...
Это продолжение предыдущей публикации про реставрацию ruGPT3XL. Для тех кто не читал, кратенько, я конвертировал древний Megatron-LM чекпоинт в HuggingFace-формат, залил веса на HF, накатил поддержку GGUF в llama.cpp и подумал, что всё. Но нет.По ходу тестов, проведённых разными людьми удалось выявить ряд недоработок, которые я по мере обнаружения правил, ну а после того, как удалось получить стабильную и рабочую версию мне захотелось решить одну старую проблему, которая меня в ruGPT3 моделях очень беспокоила, это проблема маленького контекста в смешные 2k токенов.Решил поднять контекст до 8k.
Связанные теги
Компании и люди
Линия сюжета
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Оптимизация запроса: SQL запрос выполнялся 5 минут, а после правок 2 секунды
Статья про пример оптимизации запроса с 5 минут до 2 секунд, с разбором типичных SQL-ошибок и примером кода на MS SQL Server.
Почему в AI-first стартапах Marketing Growth пока плохо работает?
Когда ко мне приходят основатели AI-first стартапов, почти всегда в начале разговора звучит одна и та же мысль.С продуктом всё более-менее понятно. Модель работает. Пользователи...
Как пополнить баланс Apple ID после отключения мобильных операторов
С 1 апреля 2026 года оплата App Store через мобильных операторов официально перестала работать. Ранее это был один из самых простых способов — деньги списывались с баланса телеф...
Синтезатор речи с ИИ на Repka-Pi 4
Ресурсы современных одноплатных микрокомпьютеров вполне могут синтезировать речь с приемлемым качеством, используя технологии нейросетей. В этой статье пример кейса с добавление...
Кейс Клаудмастер: как редизайн интерфейса управления облачных бюджетов увеличил глубину сессии в 5 раз
Иногда проблема продукта не в том, что он не нужен, а в том, что им невозможно пользоваться.Это история про рейдизайн (и немного рефакторинг) раздела управления облачными расход...
1,5 года ожиданий впустую? Intel Core Ultra 200S Plus и 200HX Plus
В 2024 году Intel представили линейку Intel Core Ultra 200S Arrow Lake-S. Она состоит из пяти процессоров в конфигурации от 14 до 24 ядер. Революционных изменений в продукте не ...
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Оптимизация запроса: SQL запрос выполнялся 5 минут, а после правок 2 секунды
Статья про пример оптимизации запроса с 5 минут до 2 секунд, с разбором типичных SQL-ошибок и примером кода на MS SQL Server.
Почему в AI-first стартапах Marketing Growth пока плохо работает?
Когда ко мне приходят основатели AI-first стартапов, почти всегда в начале разговора звучит одна и та же мысль.С продуктом всё более-менее понятно. Модель работает. Пользователи...
Как пополнить баланс Apple ID после отключения мобильных операторов
С 1 апреля 2026 года оплата App Store через мобильных операторов официально перестала работать. Ранее это был один из самых простых способов — деньги списывались с баланса телеф...
Синтезатор речи с ИИ на Repka-Pi 4
Ресурсы современных одноплатных микрокомпьютеров вполне могут синтезировать речь с приемлемым качеством, используя технологии нейросетей. В этой статье пример кейса с добавление...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Оптимизация запроса: SQL запрос выполнялся 5 минут, а после правок 2 секунды
Статья про пример оптимизации запроса с 5 минут до 2 секунд, с разбором типичных SQL-ошибок и примером кода на MS SQL Server.
Почему в AI-first стартапах Marketing Growth пока плохо работает?
Когда ко мне приходят основатели AI-first стартапов, почти всегда в начале разговора звучит одна и та же мысль.С продуктом всё более-менее понятно. Модель работает. Пользователи...
Как пополнить баланс Apple ID после отключения мобильных операторов
С 1 апреля 2026 года оплата App Store через мобильных операторов официально перестала работать. Ранее это был один из самых простых способов — деньги списывались с баланса телеф...
Синтезатор речи с ИИ на Repka-Pi 4
Ресурсы современных одноплатных микрокомпьютеров вполне могут синтезировать речь с приемлемым качеством, используя технологии нейросетей. В этой статье пример кейса с добавление...