News Grower

Независимое покрытие AI, стартапов и технологий.

Habr 15.04.2026 16:10 Инструменты разработки Рост Горячо

Мультимодальные модели – грубый и дорогой инструмент

Пока все в погоне за всё более универсальными ИИ-агентами пытаясь создать тот самый AGI по нашему подобию, мне кажется полезным спуститься на уровень ниже и посмотреть на более приземлённую инженерную проблему. Мы неплохо научили модели работать с текстом, кодом, изображениями и инструментами. Мы научили их вызывать ...

Погода сигнала

Рост

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Мультимодальные модели – грубый и дорогой инструмент

Пока все в погоне за всё более универсальными ИИ-агентами пытаясь создать тот самый AGI по нашему подобию, мне кажется полезным спуститься на уровень ниже и посмотреть на более приземлённую инженерную проблему. Мы неплохо научили модели работать с текстом, кодом, изображениями и инструментами. Мы научили их вызывать функции, научили эти ИИ писать собственные инструменты каждый раз для задач которые повторяются миллионы раз, видеть как мы(фото), думать как мы(рассуждения). Мы научились – дообучать их под новые сценарии через fine-tuning. Но если убрать хайп, остаётся неприятный факт: во многих практических задачах модели по-прежнему работают грубо и дорого. Особенно хорошо это видно на фронтенде. Сегодня у модели есть два типовых способа "увидеть" сайт. Первый – читать код: HTML, CSS, JS, и серверную логику (если вы предоставили модели доступ). Второй – смотреть на скриншоты, а в более дорогом варианте – на видео (хоть и таких решений я не видел, и скорее не видео, а слайд-шоу, но считаю логичным внедрением для некоторых сценариев). И эти оба подхода неудобны. А обучать модель внутреннему представлению через имеющиеся виды зрения – как правильно, – как распознать кнопку итд – дорого, требует ещё больших данных, больше вычислений. А банально небольшое отклонение стиля уже ломает верстку. Да с бэкендом мы можем строить среду в которой благодаря RL обучению модель научится решать задачу. Но как быть с интерфейсом? Фото дает слишком много шума в виде пикселей, а код дает много лишнего шума в виде разметки, скриптов. Когда обычному пользователю: не нужно смотреть на каждый серый пиксель фона кнопки, или изучать все стили, js и html разметку сайта, он видит овал на котором написано "войти" – и понимает что это – кнопка, особенно, если при наведении или нажатии цвет фона кнопки меняется.

Карта темы

Понять тему за минуту

Быстрый вход в историю: почему она важна сейчас, кто в ней участвует и куда идти дальше за контекстом.

Почему это важно сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.
У истории уже есть 6 связанных материала, поэтому отсюда легко перейти к продолжению темы.
Сюжет постоянно вращается вокруг AGI and Habr, поэтому страницы сущностей дадут самый быстрый контекст.
Habr уже выпустил ещё 4 продолжения по этой теме.

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise
Рост Горячо

Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise

Что делать, если синхронные REST-вызовы превращают ваши микросервисы в карточный домик? Пора вспомнить проверенные временем паттерны обмена сообщениями. В этой статье разбираем ...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

[Перевод] OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом
Пик Горячо Рост в поиске

[Перевод] OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом

Что ж, теперь образ действия Сэма Альтмана очевиден, и мы уже можем предсказать, что будет дальше. То, что он делает, — это разновидность многоуровневого маркетинга (MLM). Схема...

Погода сигнала

Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.

Почему сейчас

Тема уже растёт в поиске: импульс 982 и 27 внешнего сигнала.

Дом, который не построил Фишер (Часть 2)
Рост Горячо

Дом, который не построил Фишер (Часть 2)

(что было в прошлый раз)Теперь, когда у нас есть необходимый понятийный аппарат, посмотрим, как заставить его работать. Пусть имеется случайная величина ξ с неизвестным математи...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

«Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки
Рост Горячо

«Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки

Что будет, если столкнуть классический переборный алгоритм упаковки и «математику потока» на базе Numpy? Мы взяли реальный кейс на 398 предметов и проверили: можно ли за доли се...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Проверки физических лиц: с кого начнет ФНС
Рост Горячо

Проверки физических лиц: с кого начнет ФНС

Государство, успешно внедрив цифровой контроль за юридическими лицами через системы АСК НДС-2, онлайн-кассы и маркировку товаров, переносит центр своего внимания на граждан. Чем...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Топ-10 бесплатных нейросетей для создания видео в 2026 году
Рост Горячо

Топ-10 бесплатных нейросетей для создания видео в 2026 году

Пару лет назад весь интернет хохотал над нейросетевым Уиллом Смитом, который с выпученными глазами запихивал в себя спагетти. Это было смешно, жутко и немного завораживающе. Сег...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise
Рост Горячо

Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise

Что делать, если синхронные REST-вызовы превращают ваши микросервисы в карточный домик? Пора вспомнить проверенные временем паттерны обмена сообщениями. В этой статье разбираем ...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

[Перевод] OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом
Пик Горячо Рост в поиске

[Перевод] OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом

Что ж, теперь образ действия Сэма Альтмана очевиден, и мы уже можем предсказать, что будет дальше. То, что он делает, — это разновидность многоуровневого маркетинга (MLM). Схема...

Погода сигнала

Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.

Почему сейчас

Тема уже растёт в поиске: импульс 982 и 27 внешнего сигнала.

Дом, который не построил Фишер (Часть 2)
Рост Горячо

Дом, который не построил Фишер (Часть 2)

(что было в прошлый раз)Теперь, когда у нас есть необходимый понятийный аппарат, посмотрим, как заставить его работать. Пусть имеется случайная величина ξ с неизвестным математи...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

«Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки
Рост Горячо

«Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки

Что будет, если столкнуть классический переборный алгоритм упаковки и «математику потока» на базе Numpy? Мы взяли реальный кейс на 398 предметов и проверили: можно ли за доли се...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise
Рост Горячо

Как построить надёжный обмен сообщениями в микросервисах: лучшие практики для enterprise

Что делать, если синхронные REST-вызовы превращают ваши микросервисы в карточный домик? Пора вспомнить проверенные временем паттерны обмена сообщениями. В этой статье разбираем ...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

[Перевод] OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом
Пик Горячо Рост в поиске

[Перевод] OpenAI строит MLM-пирамиду, а McKinsey и Accenture помогают ей в этом

Что ж, теперь образ действия Сэма Альтмана очевиден, и мы уже можем предсказать, что будет дальше. То, что он делает, — это разновидность многоуровневого маркетинга (MLM). Схема...

Погода сигнала

Сейчас это одна из самых сильных точек сигнала: тема тянет поиск, внимание или редакционный приоритет.

Почему сейчас

Тема уже растёт в поиске: импульс 982 и 27 внешнего сигнала.

Дом, который не построил Фишер (Часть 2)
Рост Горячо

Дом, который не построил Фишер (Часть 2)

(что было в прошлый раз)Теперь, когда у нас есть необходимый понятийный аппарат, посмотрим, как заставить его работать. Пусть имеется случайная величина ξ с неизвестным математи...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.

«Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки
Рост Горячо

«Сверхзвуковой математик» против «Вдумчивого логиста»: битва алгоритмов 3D-упаковки

Что будет, если столкнуть классический переборный алгоритм упаковки и «математику потока» на базе Numpy? Мы взяли реальный кейс на 398 предметов и проверили: можно ли за доли се...

Погода сигнала

Импульс быстро усиливается, поэтому это хороший ранний вход в тему.

Почему сейчас

Это один из самых свежих сюжетов, у которого ещё только формируется продолжение.