[Перевод] Запускаю Gemma 4 локально в LM Studio: 51 токен/с и Claude Code без интернета
Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды.Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 4...
Ещё вчера для запуска 26-миллиардной нейросети нужен был дата-центр. Сегодня достаточно ноутбука и одной консольной команды.Встречайте: Google Gemma 4 26B-A4B. Модель, которая ломает старые правила. Архитектура mixture-of-experts (128 экспертов, 8 активных на токен) позволяет ей работать на скромных 48 ГБ объединённой памяти, выдавая при этом качество, сопоставимое с гигантами вроде Qwen 3.5 на 397B параметров.А LM Studio 0.4.0 только что сделала локальный запуск таких моделей по-настоящему удобным. Фоновый демон llmster, консольная утилита lms, непрерывный батчинг и – внимание! – эндпойнт, совместимый с Anthropic. Это значит, что вы можете направить Claude Code на свою локальную Gemma 4.Хотите узнать, как заставить эту связку летать? Как правильно рассчитать память под контекст в 256K токенов и почему спекулятивное декодирование — плохая идея для MoE? А главное — сколько это всё жрёт энергии и греет ли ваш Mac?Поехали!
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Строим VPN, устойчивый к SpyWare
В предыдущей статье мы обсуждали некоторые меры, которые пользователь может предпринять против spyware, детектирующего факт использования VPN и сливающего полученные данные “Бол...
Хранение классифицированных данных
Всем привет!У меня есть публичный проект Архитектурные Этюды, в котором мы сообществом решаем реальные архитектурные задачи. Подумал сделать цикл статей, в котором представить а...
Мой CLAUDE.md — 582 строки. Вот зачем
Каждый новый чат с Claude Code начинается с нуля. Агент не знает ваш проект, не помнит что вы обсуждали час назад, и на шестой раз всё равно полезет “чинить” конфиг который рабо...
Серверные FHE-ускорители для шифрования
Защита конфиденциальных данных — одна из главных проблем при работе с LLM. Главное, чтобы облачный «вычислительный движок» выполнял работу только над зашифрованными данными, не ...
Облачный гейминг не помог мне спасти Иерусалим
Да кому вообще нужен облачный гейминг?Недавно я задался этим вопросом во время дружеской посиделки...
Prompt ИИ агента фундаментального анализа рынка
🤡 Как контрить шитпостинг Президента СШАСуществующие решения на GitHub имеют фатальные изъяны. Разберём несколько примеров - плюсы и минусы.
Страницы сущностей
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Строим VPN, устойчивый к SpyWare
В предыдущей статье мы обсуждали некоторые меры, которые пользователь может предпринять против spyware, детектирующего факт использования VPN и сливающего полученные данные “Бол...
Хранение классифицированных данных
Всем привет!У меня есть публичный проект Архитектурные Этюды, в котором мы сообществом решаем реальные архитектурные задачи. Подумал сделать цикл статей, в котором представить а...
Мой CLAUDE.md — 582 строки. Вот зачем
Каждый новый чат с Claude Code начинается с нуля. Агент не знает ваш проект, не помнит что вы обсуждали час назад, и на шестой раз всё равно полезет “чинить” конфиг который рабо...
Серверные FHE-ускорители для шифрования
Защита конфиденциальных данных — одна из главных проблем при работе с LLM. Главное, чтобы облачный «вычислительный движок» выполнял работу только над зашифрованными данными, не ...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Строим VPN, устойчивый к SpyWare
В предыдущей статье мы обсуждали некоторые меры, которые пользователь может предпринять против spyware, детектирующего факт использования VPN и сливающего полученные данные “Бол...
Хранение классифицированных данных
Всем привет!У меня есть публичный проект Архитектурные Этюды, в котором мы сообществом решаем реальные архитектурные задачи. Подумал сделать цикл статей, в котором представить а...
Мой CLAUDE.md — 582 строки. Вот зачем
Каждый новый чат с Claude Code начинается с нуля. Агент не знает ваш проект, не помнит что вы обсуждали час назад, и на шестой раз всё равно полезет “чинить” конфиг который рабо...
Серверные FHE-ускорители для шифрования
Защита конфиденциальных данных — одна из главных проблем при работе с LLM. Главное, чтобы облачный «вычислительный движок» выполнял работу только над зашифрованными данными, не ...