Синтетика как топливо: почему self-training работает и где начинается model collapse
В индустрии ИИ случилось одно пренеприятное открытие: GPU можно купить, а качественные человеческие данные — все сложнее. Логичный шаг: если «топлива» не хватает, давайте синтезируем его сами. Звучит как вечный двигатель и на короткой дистанции, почти так и ощущается. Но есть нюанс. Если увлечься рекурсией «модель у...
В индустрии ИИ случилось одно пренеприятное открытие: GPU можно купить, а качественные человеческие данные — все сложнее. Логичный шаг: если «топлива» не хватает, давайте синтезируем его сами. Звучит как вечный двигатель и на короткой дистанции, почти так и ощущается. Но есть нюанс. Если увлечься рекурсией «модель учится на своих же генерациях», можно попасть в режим model collapse — деградации распределения, исчезновению редких случаев и потери разнообразия. Эта статья продолжает цикл о новой парадигме ИИ, на этот раз предлагаем обудить, как синтетика помогает и где начинается опасность.Об авторе: Антон Пчелинцев, эксперт онлайн-магистратур Центра «Пуск» МФТИ в области Data Science, разработки и управления ИТ-продуктами. Магистр бизнес-информатики и соавтор курса «Экономика для технологических предпринимателей». Занимается проектами в телекоме, ИТ, ИИ, интересуется биоинформатикой и биотехнологиями, увлекается изучением квантовых систем. Принимал участие в международных ИТ-стартапах (закрытие венчурных раундов с крупнейшими технологическими гигантами). Считает себя технологическим предпринимателем (не инвестором), который вот-вот набьет все шишки и наконец-то сделает что-то полезное. Собственное портфолио проектов: инерциальная авионика, ИИ-системы управления компанией, интеллектуальные системы производства спортивной обуви.В первой статье про стену данных цикла «Интуиция машины: новая парадигма ИИ» мы додумались до одной мысли: GPU можно купить, а вот качественные человеческие данные — все сложнее. Поэтому индустрия делает логичный шаг: если «топлива» (реальных данных) не хватает или оно дорожает, давайте… синтезируем его сами.
Связанные теги
Компании и люди
Линия сюжета
Collapse
Последние материалы и связанный контекст по теме Collapse.
GPU
Последние материалы и связанный контекст по теме GPU.
GPU
Последние материалы и связанные ссылки по теме GPU.
Habr
Последние материалы и связанный контекст по теме Habr.
Habr
Последние материалы и связанные ссылки по теме Habr.
Model
Последние материалы и связанный контекст по теме Model.
Model Collapse
Последние материалы и связанные ссылки по теме Model Collapse.
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
Программируемые калькуляторы. Часть третья «Первый второй»
240 байт памяти на мотке проволоки шесть метров, программирование как эзотерика, внешний носитель на магнитной карте, расчеты для управления Лунным модулем «Аполлон-11». Сплошно...
Генерация музыки: обзор нейросетей для создания музыки на русском языке
Генерация музыки с помощью ИИ в 2026 году — это уже не про игры, а про системный подход, который позволяет получить полноценную песню. В том числе, на русском языке с полноценны...
LLM — поиск товаров
LLM-поиск товаров: R&D применения технологий RAG и Knowledge Graph Search для продвинутого поиска товаров по сложным текстовым запросам. Как LLM и Knowledge Graph ищут товары
Режим сна и продуктивность: как не работать по ночам и всё успевать
Удалёнка сдвигает рабочий день вправо. Утром — встречи и реакции на входящие, днём — операционка, и только к вечеру наконец доходят руки до задач, которые требуют головы. Итог: ...
Эксперимент: улучшаем реальную статью с Obsidian Copilot
Привет, Хабр!В своей работе мне приходится держать в голове очень много информации, иногда настолько, что нельзя не полагаться на современные технологии. В этот раз я хочу прове...
Проверяем веб-расчёт потерь в шинах на соответствие стандартам
От уравнений до верификации: как мы сравнивали разработанный веб-модуль для анализа потерь в НКУ (низковольтных комплектных устройствах) с нормативной базойА можно ли рассчитать...
Страницы сущностей
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
Программируемые калькуляторы. Часть третья «Первый второй»
240 байт памяти на мотке проволоки шесть метров, программирование как эзотерика, внешний носитель на магнитной карте, расчеты для управления Лунным модулем «Аполлон-11». Сплошно...
Генерация музыки: обзор нейросетей для создания музыки на русском языке
Генерация музыки с помощью ИИ в 2026 году — это уже не про игры, а про системный подход, который позволяет получить полноценную песню. В том числе, на русском языке с полноценны...
LLM — поиск товаров
LLM-поиск товаров: R&D применения технологий RAG и Knowledge Graph Search для продвинутого поиска товаров по сложным текстовым запросам. Как LLM и Knowledge Graph ищут товары
Режим сна и продуктивность: как не работать по ночам и всё успевать
Удалёнка сдвигает рабочий день вправо. Утром — встречи и реакции на входящие, днём — операционка, и только к вечеру наконец доходят руки до задач, которые требуют головы. Итог: ...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
Программируемые калькуляторы. Часть третья «Первый второй»
240 байт памяти на мотке проволоки шесть метров, программирование как эзотерика, внешний носитель на магнитной карте, расчеты для управления Лунным модулем «Аполлон-11». Сплошно...
Генерация музыки: обзор нейросетей для создания музыки на русском языке
Генерация музыки с помощью ИИ в 2026 году — это уже не про игры, а про системный подход, который позволяет получить полноценную песню. В том числе, на русском языке с полноценны...
[Перевод] Неприметный стартап предлагает выращивать безмозглые клоны людей на запасные органы
После многих лет секретной деятельности стартап R3 Bio из Ричмонда, штат Калифорния, на прошлой неделе внезапно раскрыл подробности своей работы, заявив, что привлёк финансирова...
LLM — поиск товаров
LLM-поиск товаров: R&D применения технологий RAG и Knowledge Graph Search для продвинутого поиска товаров по сложным текстовым запросам. Как LLM и Knowledge Graph ищут товары