News Grower

Независимое покрытие AI, стартапов и технологий.

Evals: мегастатья для фаундера, чей AI-агент работает как попало

Через несколько дней будет 16 лет, как я на Хабре. Это моя первая статья.Я делаю десктопный AI-ассистент для встреч. Агент суммаризирует транскрипты — и делал это плохо: галлюцинирует решения, теряет задачи, путает кто что сказал. Полгода я чинил промпты по ощущениям — менял слово, смотрел глазами на пару примеров, ...

Evals: мегастатья для фаундера, чей AI-агент работает как попало

Через несколько дней будет 16 лет, как я на Хабре. Это моя первая статья.Я делаю десктопный AI-ассистент для встреч. Агент суммаризирует транскрипты — и делал это плохо: галлюцинирует решения, теряет задачи, путает кто что сказал. Полгода я чинил промпты по ощущениям — менял слово, смотрел глазами на пару примеров, говорил «вроде лучше», деплоил. Это называется vibes-based development, и это тупик.Потом я разобрался с evals — по сути, тестами для недетерминированных систем. Перелопатил Hamel Husain, Eugene Yan, гайды Anthropic, доку Mastra. Написал всё в одном месте: мегастатья от ручного разбора ошибок до self-improving loops, где агент улучшает себя сам за ночь. С кодом, граблями и метафорами про пиццу.

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

High-performance C#: используем SearchValues и FrozenCollections для оптимизации горячих путей

High-performance C#: используем SearchValues и FrozenCollections для оптимизации горячих путей

В мире высоконагруженных .NET-приложений каждая наносекунда на счету. Когда ваш код обрабатывает миллионы запросов, даже микрооптимизации могут дать ощутимый прирост производите...

Нужен ли контент-менеджер в наши дни?

Нужен ли контент-менеджер в наши дни?

В современном мире ИИ развивается с бешеной скоростью, помогая реализовывать низкоуровневые задачи, где-то даже заменяя самого специалиста. Несколько месяцев назад ко мне пришел...

AIVPN: VPN-протокол с мимикрией трафика и автоматической сменой профиля

AIVPN: VPN-протокол с мимикрией трафика и автоматической сменой профиля

AIVPN — это VPN-протокол на Rust, который не только шифрует трафик, но и маскирует его под реальные приложения. Внутри: короткие криптотеги вместо открытого идентификатора сесси...

Один сервер — три правды: почему ИТ, бухгалтерия и закупки не могут договориться

Один сервер — три правды: почему ИТ, бухгалтерия и закупки не могут договориться

ИТ-директор знает, что сервер загружен на 90% и скоро встанет. Бухгалтер знает, что этот же сервер уже три года как самортизирован и формально не существует. Закупщик знает, что...

Локальный ИИ: майнинг плата + 3 RTX 3090

Локальный ИИ: майнинг плата + 3 RTX 3090

С прошлого года я изучаю бюджетные варианты сборок для локального ИИ в домашних условиях. Точкой “не возврата” стал запуск модели gpt-oss-120b на 3 видеокартах на открытом стенд...

Рекламный слот

Встроенный блок в статье

Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.

Партнерский слот

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

High-performance C#: используем SearchValues и FrozenCollections для оптимизации горячих путей

High-performance C#: используем SearchValues и FrozenCollections для оптимизации горячих путей

В мире высоконагруженных .NET-приложений каждая наносекунда на счету. Когда ваш код обрабатывает миллионы запросов, даже микрооптимизации могут дать ощутимый прирост производите...

Нужен ли контент-менеджер в наши дни?

Нужен ли контент-менеджер в наши дни?

В современном мире ИИ развивается с бешеной скоростью, помогая реализовывать низкоуровневые задачи, где-то даже заменяя самого специалиста. Несколько месяцев назад ко мне пришел...

AIVPN: VPN-протокол с мимикрией трафика и автоматической сменой профиля

AIVPN: VPN-протокол с мимикрией трафика и автоматической сменой профиля

AIVPN — это VPN-протокол на Rust, который не только шифрует трафик, но и маскирует его под реальные приложения. Внутри: короткие криптотеги вместо открытого идентификатора сесси...

Один сервер — три правды: почему ИТ, бухгалтерия и закупки не могут договориться

Один сервер — три правды: почему ИТ, бухгалтерия и закупки не могут договориться

ИТ-директор знает, что сервер загружен на 90% и скоро встанет. Бухгалтер знает, что этот же сервер уже три года как самортизирован и формально не существует. Закупщик знает, что...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
High-performance C#: используем SearchValues и FrozenCollections для оптимизации горячих путей

High-performance C#: используем SearchValues и FrozenCollections для оптимизации горячих путей

В мире высоконагруженных .NET-приложений каждая наносекунда на счету. Когда ваш код обрабатывает миллионы запросов, даже микрооптимизации могут дать ощутимый прирост производите...

Нужен ли контент-менеджер в наши дни?

Нужен ли контент-менеджер в наши дни?

В современном мире ИИ развивается с бешеной скоростью, помогая реализовывать низкоуровневые задачи, где-то даже заменяя самого специалиста. Несколько месяцев назад ко мне пришел...

AIVPN: VPN-протокол с мимикрией трафика и автоматической сменой профиля

AIVPN: VPN-протокол с мимикрией трафика и автоматической сменой профиля

AIVPN — это VPN-протокол на Rust, который не только шифрует трафик, но и маскирует его под реальные приложения. Внутри: короткие криптотеги вместо открытого идентификатора сесси...

Один сервер — три правды: почему ИТ, бухгалтерия и закупки не могут договориться

Один сервер — три правды: почему ИТ, бухгалтерия и закупки не могут договориться

ИТ-директор знает, что сервер загружен на 90% и скоро встанет. Бухгалтер знает, что этот же сервер уже три года как самортизирован и формально не существует. Закупщик знает, что...