Evals: мегастатья для фаундера, чей AI-агент работает как попало
Через несколько дней будет 16 лет, как я на Хабре. Это моя первая статья.Я делаю десктопный AI-ассистент для встреч. Агент суммаризирует транскрипты — и делал это плохо: галлюцинирует решения, теряет задачи, путает кто что сказал. Полгода я чинил промпты по ощущениям — менял слово, смотрел глазами на пару примеров, ...
Через несколько дней будет 16 лет, как я на Хабре. Это моя первая статья.Я делаю десктопный AI-ассистент для встреч. Агент суммаризирует транскрипты — и делал это плохо: галлюцинирует решения, теряет задачи, путает кто что сказал. Полгода я чинил промпты по ощущениям — менял слово, смотрел глазами на пару примеров, говорил «вроде лучше», деплоил. Это называется vibes-based development, и это тупик.Потом я разобрался с evals — по сути, тестами для недетерминированных систем. Перелопатил Hamel Husain, Eugene Yan, гайды Anthropic, доку Mastra. Написал всё в одном месте: мегастатья от ручного разбора ошибок до self-improving loops, где агент улучшает себя сам за ночь. С кодом, граблями и метафорами про пиццу.
Связанные теги
Компании и люди
Линия сюжета
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
High-performance C#: используем SearchValues и FrozenCollections для оптимизации горячих путей
В мире высоконагруженных .NET-приложений каждая наносекунда на счету. Когда ваш код обрабатывает миллионы запросов, даже микрооптимизации могут дать ощутимый прирост производите...
Нужен ли контент-менеджер в наши дни?
В современном мире ИИ развивается с бешеной скоростью, помогая реализовывать низкоуровневые задачи, где-то даже заменяя самого специалиста. Несколько месяцев назад ко мне пришел...
AIVPN: VPN-протокол с мимикрией трафика и автоматической сменой профиля
AIVPN — это VPN-протокол на Rust, который не только шифрует трафик, но и маскирует его под реальные приложения. Внутри: короткие криптотеги вместо открытого идентификатора сесси...
Один сервер — три правды: почему ИТ, бухгалтерия и закупки не могут договориться
ИТ-директор знает, что сервер загружен на 90% и скоро встанет. Бухгалтер знает, что этот же сервер уже три года как самортизирован и формально не существует. Закупщик знает, что...
Russian Railway Simulator (RRS): семь лет спустя
В 2019 году я публиковал статью о первой версии своего проекта Russian Railway Simulator. Прошло достаточно много времени, и возможно кто-то думает, что проект умер. Нет, проект...
Локальный ИИ: майнинг плата + 3 RTX 3090
С прошлого года я изучаю бюджетные варианты сборок для локального ИИ в домашних условиях. Точкой “не возврата” стал запуск модели gpt-oss-120b на 3 видеокартах на открытом стенд...
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
High-performance C#: используем SearchValues и FrozenCollections для оптимизации горячих путей
В мире высоконагруженных .NET-приложений каждая наносекунда на счету. Когда ваш код обрабатывает миллионы запросов, даже микрооптимизации могут дать ощутимый прирост производите...
Нужен ли контент-менеджер в наши дни?
В современном мире ИИ развивается с бешеной скоростью, помогая реализовывать низкоуровневые задачи, где-то даже заменяя самого специалиста. Несколько месяцев назад ко мне пришел...
AIVPN: VPN-протокол с мимикрией трафика и автоматической сменой профиля
AIVPN — это VPN-протокол на Rust, который не только шифрует трафик, но и маскирует его под реальные приложения. Внутри: короткие криптотеги вместо открытого идентификатора сесси...
Один сервер — три правды: почему ИТ, бухгалтерия и закупки не могут договориться
ИТ-директор знает, что сервер загружен на 90% и скоро встанет. Бухгалтер знает, что этот же сервер уже три года как самортизирован и формально не существует. Закупщик знает, что...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
High-performance C#: используем SearchValues и FrozenCollections для оптимизации горячих путей
В мире высоконагруженных .NET-приложений каждая наносекунда на счету. Когда ваш код обрабатывает миллионы запросов, даже микрооптимизации могут дать ощутимый прирост производите...
Нужен ли контент-менеджер в наши дни?
В современном мире ИИ развивается с бешеной скоростью, помогая реализовывать низкоуровневые задачи, где-то даже заменяя самого специалиста. Несколько месяцев назад ко мне пришел...
AIVPN: VPN-протокол с мимикрией трафика и автоматической сменой профиля
AIVPN — это VPN-протокол на Rust, который не только шифрует трафик, но и маскирует его под реальные приложения. Внутри: короткие криптотеги вместо открытого идентификатора сесси...
Один сервер — три правды: почему ИТ, бухгалтерия и закупки не могут договориться
ИТ-директор знает, что сервер загружен на 90% и скоро встанет. Бухгалтер знает, что этот же сервер уже три года как самортизирован и формально не существует. Закупщик знает, что...