От MNIST к Transformer. Часть 4. Gradient Descent. Обучаем нашу модель
Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. Это четвертая статья из цикла От MNIST к Transformer, цель которого пошагово пройти путь от простого ...
Мы живем в эпоху, когда ИИ стал доступен каждому. Но за магией PyTorch скрывается колоссальная инженерная работа и сложные вычислительные процессы, которые для большинства остаются черным ящиком. Это четвертая статья из цикла От MNIST к Transformer, цель которого пошагово пройти путь от простого CUDA ядра до создания архитектуры Transformer - фундамента современных LLM моделей. Мы не будем использовать готовые высокоуровневые библиотеки. Мы будем разбирать, как все устроено под капотом, и пересобирать их ключевые механизмы своими руками на самом низком уровне. Только так можно по настоящему понять как работают LLM и что за этим стоит. В этой статье мы разберем как работает градиентный спуск, реализуем его и обучим нашу модель для распознования mnist датасета.Приготовьтесь, будет много кода на C++ и CUDA, работы с памятью и погружения в архитектуру GPU. И конечно же математика что за этим стоит. Поехали!
Краткая сводка
В четвёртой части серии «От MNIST к Transformer» рассматривается принцип работы градиентного спуска, его реализация на C++/CUDA и обучение модели распознаванию набора MNIST без использования готовых высокоуровневых библиотек, с акцентом на работу с памятью GPU и сопутствующую математику.
Связанные теги
Компании и люди
Линия сюжета
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Гадательные кости и климатические модели: как ученые изучали катастрофы древнего Китая
Климат всегда был одним из факторов, влияющих на жизнь целых народов. В Китае, где еще в бронзовом веке сформировались первые государства, дождь или его отсутствие решали судьбу...
Как выстроить систему обучения проектной команды в IT: пошаговый алгоритм
Когда в команде что‑то «идёт не так», первым делом вспоминают про обучение. И всех отправляют на курс какого-нибудь распиаренного бизнес-тренера. Чаще всего это не помогает. Ком...
[Перевод] Океанские бактерии объединяются для разложения биоразлагаемого пластика
Биоразлагаемый пластик может помочь справиться с кризисом, вызванным пластиковыми отходами, которые загрязняют окружающую среду и наносят вред нашему здоровью. Однако до сих пор...
Одинаковая модель — разный опыт: где ломается сравнение нейросетей
Привет, Хабр. Я Гоша Соловьёв, ведущий инженер-программист в Контуре.Иногда в одном обсуждении встречаются люди с разным уровнем погружения в нейросети. Они начинают сравнивать ...
Четыре IDE, тьма агентов, ноль свободного времени
В какой-то момент понял, что у меня открыто четыре IDE с разными проектами. В каждой крутится одна или несколько сессий с Claude AI. А я сижу и жонглирую вкладками. Планирование...
Моя волна — теперь и в офлайне. Рассказываем, как уместили рекомендательную систему в сотню килобайт
Несколько лет назад мы представили Мою волну — систему персональных рекомендаций в Яндекс Музыке, которая подстраивается под предпочтения пользователей. В её основе — ...
Рекламный слот
Article monetization slot
Reserved for contextual monetization inside article pages.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Гадательные кости и климатические модели: как ученые изучали катастрофы древнего Китая
Климат всегда был одним из факторов, влияющих на жизнь целых народов. В Китае, где еще в бронзовом веке сформировались первые государства, дождь или его отсутствие решали судьбу...
Как выстроить систему обучения проектной команды в IT: пошаговый алгоритм
Когда в команде что‑то «идёт не так», первым делом вспоминают про обучение. И всех отправляют на курс какого-нибудь распиаренного бизнес-тренера. Чаще всего это не помогает. Ком...
[Перевод] Океанские бактерии объединяются для разложения биоразлагаемого пластика
Биоразлагаемый пластик может помочь справиться с кризисом, вызванным пластиковыми отходами, которые загрязняют окружающую среду и наносят вред нашему здоровью. Однако до сих пор...
Одинаковая модель — разный опыт: где ломается сравнение нейросетей
Привет, Хабр. Я Гоша Соловьёв, ведущий инженер-программист в Контуре.Иногда в одном обсуждении встречаются люди с разным уровнем погружения в нейросети. Они начинают сравнивать ...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Гадательные кости и климатические модели: как ученые изучали катастрофы древнего Китая
Климат всегда был одним из факторов, влияющих на жизнь целых народов. В Китае, где еще в бронзовом веке сформировались первые государства, дождь или его отсутствие решали судьбу...
Как выстроить систему обучения проектной команды в IT: пошаговый алгоритм
Когда в команде что‑то «идёт не так», первым делом вспоминают про обучение. И всех отправляют на курс какого-нибудь распиаренного бизнес-тренера. Чаще всего это не помогает. Ком...
[Перевод] Океанские бактерии объединяются для разложения биоразлагаемого пластика
Биоразлагаемый пластик может помочь справиться с кризисом, вызванным пластиковыми отходами, которые загрязняют окружающую среду и наносят вред нашему здоровью. Однако до сих пор...
Одинаковая модель — разный опыт: где ломается сравнение нейросетей
Привет, Хабр. Я Гоша Соловьёв, ведущий инженер-программист в Контуре.Иногда в одном обсуждении встречаются люди с разным уровнем погружения в нейросети. Они начинают сравнивать ...