[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ. Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось б...
Погода сигнала
Стабильно
История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.
Qwen-3-Coder-Next — модель с 80 миллиардами параметров и весом 159,4 ГБ. Примерно столько RAM потребовалось бы для её запуска, и это ещё без учёта длинного контекстного окна. И эта модель не считается большой моделью! По слухам, у frontier-моделей более триллиона параметров, для которых понадобилось бы минимум 2 ТБ оперативной памяти. Последний раз я видел столько RAM в одной машине — никогда. Но что если я скажу, что можно сделать LLM в 4 раза меньше и в 2 раза быстрее — достаточно, чтобы запускать весьма мощные модели на ноутбуке, — при потере точности всего 5–10%?В этом и заключается магия квантизации. В этой статье вы узнаете:– Почему параметры модели делают её такой большой– Как работает точность чисел с плавающей точкой и чем жертвуют модели– Как сжимать числа с плавающей точкой с помощью квантизации– Как измерить потерю качества модели после квантизации
Оставайтесь в сигнале
Следить за темой «[Перевод] Квантизация с нуля: как запустить 160ГБ LLM на ноутбуке и не потерять в качестве»
Следите не только за этой публикацией, но и за её продолжением: новыми материалами, соседними источниками и развитием сюжета.
Карта темы
Понять тему за минуту
Быстрый вход в историю: почему она важна сейчас, кто в ней участвует и куда идти дальше за контекстом.
Почему это важно сейчас
Карта темы
Открыть живую карту этой истории
Посмотрите, какие сущности, линии сюжета, источники и follow-up материалы формируют эту историю прямо сейчас.
Нажимайте на узлы
Страницы сущностей
Story timeline
Продолжить следить за темой
Короткая линия событий и follow-up материалов, чтобы быстро понять ход темы.
Насколько можно опираться
Сигнал и надёжность Habr
Источник работает в быстрый ритме: 0% последних материалов попадают в горячее окно, а 8% дают выраженный поисковый сигнал.
Надёжность
10
Свежесть
22
Источников в сюжете
5
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
AppSec Solutions разработала ИИ-файрвол для защиты LLM-систем
AppSec Solutions сообщила о разработке ИИ-файрвола — продукта для защиты систем с искусственным интеллектом и фильтрации запросов к большим языковым моделям. Разработкой занимал...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
YouTube подвешивает браузеры и съедать гигабайты RAM из-за бага интерфейса
Пользователи YouTube жалуются на зависания браузеров, рывки видео и резкий рост потребления оперативной памяти. Судя по сообщениям на Reddit и в браузерных форумах, проблема зат...
Погода сигнала
Импульс быстро усиливается, поэтому это хороший ранний вход в тему.
Почему сейчас
Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
AMD EPYC и NVIDIA RTX Pro Blackwell: QNAP представила хранилище QAI-h1290FX для ИИ-задач
Компания QNAP Systems анонсировала сервер хранения QAI-h1290FX, предназначенный для решения ИИ-задач на периферии. Устройство подходит для работы с большими языковыми моделями (...
Погода сигнала
История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.
Почему сейчас
История уже пережила первый заголовок, но всё ещё активно развивается.
VK Tech предложила бизнесу платформу VK AI Space для создания и запуска ИИ-агентов
VK Tech представила платформу VK AI Space, позволяющую разрабатывать и запускать кастомных ИИ-агентов. Основой платформы стали большие языковые модели (LLM), в том числе — собст...
Погода сигнала
История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.
Почему сейчас
История уже пережила первый заголовок, но всё ещё активно развивается.
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Промпты Nano Banana для фото и изображений: Бесплатно для Нано Банана Про
Создание безупречного визуала в Nano Banana — это не вопрос везения, а результат правильной коммуникации с нейросетью. В отличие от простых моделей прошлого, этот инструмент спо...
Погода сигнала
История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.
Почему сейчас
История уже пережила первый заголовок, но всё ещё активно развивается.
Пошаговая инструкция установки MTProto прокси через Service Node + VLESS
Если вы когда-нибудь пытались поднять прокси для Telegram на сервере, то знаете, что такое «мессенджер не грузит». В этой инструкции я предлагаю рассмотреть подробную, пошаговую...
Погода сигнала
Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.
Почему сейчас
Тема уже растёт в поиске: импульс 918 и 27 внешнего сигнала.
Накрутка поведенческих факторов для роста позиций — реально ли за день занять топ 1 Яндекса
Знаете, можно много долго спорить о том, что вот там умеют делать, а наши ничего не умеют. Но подход Яндекса к формированию поисковой выдачи мне всегда импонировал больше, нежел...
Погода сигнала
История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.
Почему сейчас
История уже пережила первый заголовок, но всё ещё активно развивается.
Тени истории. Ренессанс – революция, подарившая миру главный инструмент шпионов
Вторая статья цикла о криптографии, в котором мы рассказываем, как человечество училось прятать и расшифровывать секреты — от древних методов до современных алгоритмов. Сегодня ...
Погода сигнала
История уже пережила первый всплеск и теперь работает как надёжный контекстный материал.
Почему сейчас
История уже пережила первый заголовок, но всё ещё активно развивается.