Как мы запустили 35B LLM на видеокарте за $500: внутри ZINC inference engine
Год назад запуск модели на 35 миллиардов параметров подразумевал облако, очередь на GPU, и счёт от провайдера в конце месяца. Сегодня я покажу, как мы сделали это на одной потребительской видеокарте AMD за $500 — без ROCm, без CUDA, без MLX, одним бинарником на Zig.Это пост про ZINC — inference engine, который мы ст...
Год назад запуск модели на 35 миллиардов параметров подразумевал облако, очередь на GPU, и счёт от провайдера в конце месяца. Сегодня я покажу, как мы сделали это на одной потребительской видеокарте AMD за $500 — без ROCm, без CUDA, без MLX, одним бинарником на Zig.Это пост про ZINC — inference engine, который мы строим с нуля под железо, которое люди реально покупают. Не как proof of concept, а как рабочий инструмент с OpenAI-совместимым API, потоковой генерацией и встроенным чатом. Погрузиться
Связанные теги
Компании и люди
Линия сюжета
AMD
Последние материалы и связанный контекст по теме AMD.
AMD
Последние материалы и связанные ссылки по теме AMD.
CUDA-ядрами
Последние материалы и связанные ссылки по теме CUDA-ядрами.
CUDA-ядрами
Последние материалы и связанный контекст по теме CUDA-ядрами.
GPU
Последние материалы и связанный контекст по теме GPU.
GPU
Последние материалы и связанные ссылки по теме GPU.
Habr
Последние материалы и связанный контекст по теме Habr.
Habr
Последние материалы и связанные ссылки по теме Habr.
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Мультиагентная система без LangChain: почему абстракции ломаются и как строить production на чистом Python
LangChain обещает: переключите модель одной строкой, подключите RAG за две. У меня в production мультиагентная система с RAG, CRM и тремя мессенджерами — и я построил её без Lan...
P2P в РФ: почему нужна система, а не протокол
Важное уведомлениеДанная статья носит исключительно информационный и исследовательский характер. Все приведённые материалы предназначены для обсуждения архитектуры распределённы...
UnionPay: в каких странах работает в 2026 году (список всё меньше)
Карта UnionPay в моменте стала спасением. Российские туристы активно использовали её в промежутке между 2022 и первой половиной 2025 года. Что случилось потом? Почему сегодня ро...
Основы безопасности веб-приложений для бизнеса
Вы знали, что всего за пару часов вовлечённости в проект можно сэкономить десятки тысяч рублей? А иногда даже сотни. Сегодня мы научимся экономить наши кровные деньги, не отдава...
Прокси MTProto | Обход ограничения на зарубежный трафик
В предыдущей статье я рассказал о том с какими проблемами столкнулся при создании своего решения для управления прокси. Как я понял из комментариев, прокси довольно быстро отлет...
Зачем вообще нужен Гегель и его диалектика в эпоху квантовой неопределенности?
Иногда в философских дискуссиях у моих собеседников проскальзывает мысль: "Зачем нам Гегель, если есть математическая логика, теория информации, машинное обучение?" Вопрос справ...
Страницы сущностей
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Мультиагентная система без LangChain: почему абстракции ломаются и как строить production на чистом Python
LangChain обещает: переключите модель одной строкой, подключите RAG за две. У меня в production мультиагентная система с RAG, CRM и тремя мессенджерами — и я построил её без Lan...
P2P в РФ: почему нужна система, а не протокол
Важное уведомлениеДанная статья носит исключительно информационный и исследовательский характер. Все приведённые материалы предназначены для обсуждения архитектуры распределённы...
UnionPay: в каких странах работает в 2026 году (список всё меньше)
Карта UnionPay в моменте стала спасением. Российские туристы активно использовали её в промежутке между 2022 и первой половиной 2025 года. Что случилось потом? Почему сегодня ро...
Основы безопасности веб-приложений для бизнеса
Вы знали, что всего за пару часов вовлечённости в проект можно сэкономить десятки тысяч рублей? А иногда даже сотни. Сегодня мы научимся экономить наши кровные деньги, не отдава...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Мультиагентная система без LangChain: почему абстракции ломаются и как строить production на чистом Python
LangChain обещает: переключите модель одной строкой, подключите RAG за две. У меня в production мультиагентная система с RAG, CRM и тремя мессенджерами — и я построил её без Lan...
P2P в РФ: почему нужна система, а не протокол
Важное уведомлениеДанная статья носит исключительно информационный и исследовательский характер. Все приведённые материалы предназначены для обсуждения архитектуры распределённы...
UnionPay: в каких странах работает в 2026 году (список всё меньше)
Карта UnionPay в моменте стала спасением. Российские туристы активно использовали её в промежутке между 2022 и первой половиной 2025 года. Что случилось потом? Почему сегодня ро...
Основы безопасности веб-приложений для бизнеса
Вы знали, что всего за пару часов вовлечённости в проект можно сэкономить десятки тысяч рублей? А иногда даже сотни. Сегодня мы научимся экономить наши кровные деньги, не отдава...