News Grower

Независимое покрытие AI, стартапов и технологий.

Habr 27.03.2026 06:00 Developer Tools

От MNIST к Transformer. Часть 4. Gradient Descent. Обучаем нашу модель

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. Это четвертая статья из цикла От MNIST к Transformer, цель которого пошагово пройти путь от простого ...

От MNIST к Transformer. Часть 4. Gradient Descent. Обучаем нашу модель

Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. Это четвертая статья из цикла От MNIST к Transformer, цель которого пошагово пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. В этой статье мы разберем как работает градиентный спуск, реализуем его и обучим нашу модель для распознования mnist датасета.Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. Поехали!

Краткая сводка

В четвёртой части серии «От MNIST к Transformer» рассматривается принцип работы градиентного спуска, его реализация на C++/CUDA и обучение модели распознаванию набора MNIST без использования готовых высокоуровневых библиотек, с акцентом на работу с памятью GPU и сопутствующую математику.

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

Гадательные кости и климатические модели: как ученые изучали катастрофы древнего Китая
Habr 27.03.2026 07:59 Developer Tools

Гадательные кости и климатические модели: как ученые изучали катастрофы древнего Китая

Климат всегда был одним из факторов, влияющих на жизнь целых народов. В Китае, где еще в бронзовом веке сформировались первые государства, дождь или его отсутствие решали судьбу...

Как выстроить систему обучения проектной команды в IT: пошаговый алгоритм
Habr 27.03.2026 07:59 Developer Tools

Как выстроить систему обучения проектной команды в IT: пошаговый алгоритм

Когда в команде что‑то «идёт не так», первым делом вспоминают про обучение. И всех отправляют на курс какого-нибудь распиаренного бизнес-тренера. Чаще всего это не помогает. Ком...

[Перевод] Океанские бактерии объединяются для разложения биоразлагаемого пластика
Habr 27.03.2026 07:44 Developer Tools

[Перевод] Океанские бактерии объединяются для разложения биоразлагаемого пластика

Биоразлагаемый пластик может помочь справиться с кризисом, вызванным пластиковыми отходами, которые загрязняют окружающую среду и наносят вред нашему здоровью. Однако до сих пор...

Одинаковая модель — разный опыт: где ломается сравнение нейросетей
Habr 27.03.2026 07:38 Developer Tools

Одинаковая модель — разный опыт: где ломается сравнение нейросетей

Привет, Хабр. Я Гоша Соловьёв, ведущий инженер-программист в Контуре.Иногда в одном обсуждении встречаются люди с разным уровнем погружения в нейросети. Они начинают сравнивать ...

Habr 27.03.2026 07:31 Developer Tools

Четыре IDE, тьма агентов, ноль свободного времени

В какой-то момент понял, что у меня открыто четыре IDE с разными проектами. В каждой крутится одна или несколько сессий с Claude AI. А я сижу и жонглирую вкладками. Планирование...

Моя волна — теперь и в офлайне. Рассказываем, как уместили рекомендательную систему в сотню килобайт
Habr 27.03.2026 07:31 Developer Tools

Моя волна — теперь и в офлайне. Рассказываем, как уместили рекомендательную систему в сотню килобайт

Несколько лет назад мы представили Мою волну — систему персональных рекомендаций в Яндекс Музыке, которая подстраивается под предпочтения пользователей. В её основе — ...

Рекламный слот

Article monetization slot

Reserved for contextual monetization inside article pages.

Explore options

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Гадательные кости и климатические модели: как ученые изучали катастрофы древнего Китая
Habr 27.03.2026 07:59 Developer Tools

Гадательные кости и климатические модели: как ученые изучали катастрофы древнего Китая

Климат всегда был одним из факторов, влияющих на жизнь целых народов. В Китае, где еще в бронзовом веке сформировались первые государства, дождь или его отсутствие решали судьбу...

Как выстроить систему обучения проектной команды в IT: пошаговый алгоритм
Habr 27.03.2026 07:59 Developer Tools

Как выстроить систему обучения проектной команды в IT: пошаговый алгоритм

Когда в команде что‑то «идёт не так», первым делом вспоминают про обучение. И всех отправляют на курс какого-нибудь распиаренного бизнес-тренера. Чаще всего это не помогает. Ком...

[Перевод] Океанские бактерии объединяются для разложения биоразлагаемого пластика
Habr 27.03.2026 07:44 Developer Tools

[Перевод] Океанские бактерии объединяются для разложения биоразлагаемого пластика

Биоразлагаемый пластик может помочь справиться с кризисом, вызванным пластиковыми отходами, которые загрязняют окружающую среду и наносят вред нашему здоровью. Однако до сих пор...

Одинаковая модель — разный опыт: где ломается сравнение нейросетей
Habr 27.03.2026 07:38 Developer Tools

Одинаковая модель — разный опыт: где ломается сравнение нейросетей

Привет, Хабр. Я Гоша Соловьёв, ведущий инженер-программист в Контуре.Иногда в одном обсуждении встречаются люди с разным уровнем погружения в нейросети. Они начинают сравнивать ...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
Гадательные кости и климатические модели: как ученые изучали катастрофы древнего Китая
Habr 27.03.2026 07:59 Developer Tools

Гадательные кости и климатические модели: как ученые изучали катастрофы древнего Китая

Климат всегда был одним из факторов, влияющих на жизнь целых народов. В Китае, где еще в бронзовом веке сформировались первые государства, дождь или его отсутствие решали судьбу...

Как выстроить систему обучения проектной команды в IT: пошаговый алгоритм
Habr 27.03.2026 07:59 Developer Tools

Как выстроить систему обучения проектной команды в IT: пошаговый алгоритм

Когда в команде что‑то «идёт не так», первым делом вспоминают про обучение. И всех отправляют на курс какого-нибудь распиаренного бизнес-тренера. Чаще всего это не помогает. Ком...

[Перевод] Океанские бактерии объединяются для разложения биоразлагаемого пластика
Habr 27.03.2026 07:44 Developer Tools

[Перевод] Океанские бактерии объединяются для разложения биоразлагаемого пластика

Биоразлагаемый пластик может помочь справиться с кризисом, вызванным пластиковыми отходами, которые загрязняют окружающую среду и наносят вред нашему здоровью. Однако до сих пор...

Одинаковая модель — разный опыт: где ломается сравнение нейросетей
Habr 27.03.2026 07:38 Developer Tools

Одинаковая модель — разный опыт: где ломается сравнение нейросетей

Привет, Хабр. Я Гоша Соловьёв, ведущий инженер-программист в Контуре.Иногда в одном обсуждении встречаются люди с разным уровнем погружения в нейросети. Они начинают сравнивать ...