News Grower

Независимое покрытие AI, стартапов и технологий.

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку.Индустрия пыта...

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, игнорируют явные ошибки и «влюбляются» в свою первую догадку.Индустрия пытается лечить это костылями: наращивает контекст до миллионов токенов или заставляет модель «подумать шаг за шагом» (Chain-of-Thought). Я решил проверить эту архитектуру на прочность. Собрал локальный измерительный стенд LOCK-R, вооружился Теоремой Байеса и поймал современные LLM за руку.В этой статье я математически докажу, почему одиночные агенты структурно уязвимы, как токены размышлений заставляют их врать самим себе еще искуснее, и почему паттерн «Слепого Судьи» - это единственный способ вылечить AI от предвзятости. Тестируем на локальной Qwen-9B и фронтирной GPT-5.4.

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

Тихий убийца: Деградация производительности без явных ошибок

Тихий убийца: Деградация производительности без явных ошибок

В этой статье мыпопробуем провести небольшое расследование, посвященное тому, как найти и обезвредить «тихого убийцу». В частности, мы на конкретных примерах разберём утечки пам...

Как мы построили речевую аналитику для кол-центров и начали анализировать тысячи звонков

Как мы построили речевую аналитику для кол-центров и начали анализировать тысячи звонков

Привет! Я Артём Юрченко — DS-инженер в команде Недвижимости Авито. Наши кол-центры совершают до 30 000 звонков в день, и вручную можно проверить лишь небольшую часть из них. Рас...

Секреты Docker Swarm: как сделать их одноразовыми с помощью именованных каналов (FIFO)

Секреты Docker Swarm: как сделать их одноразовыми с помощью именованных каналов (FIFO)

Docker Swarm предоставляет встроенный механизм управления секретами: пароли, ключи API и сертификаты передаются в контейнеры через зашифрованный канал и монтируются в /run/secre...

[Перевод] Навыки в OpenClaw: установка, создание и защита от вредоносных наборов

[Перевод] Навыки в OpenClaw: установка, создание и защита от вредоносных наборов

341 вредоносный навык на 2857 проверенных — и это только то, что нашли. Навыки в OpenClaw — это не плагины и не контент. Это инструкции, по которым агент читает файлы, запускает...

Куда бедному нейроблоггеру податься?

Когда решение вести блог принято, перед каждым будущим автором немедленно встает следующий вопрос: где? Или, точнее — в чём?Я думал, что решение этого вопроса тривиально и займё...

Рекламный слот

Встроенный блок в статье

Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.

Партнерский слот

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Тихий убийца: Деградация производительности без явных ошибок

Тихий убийца: Деградация производительности без явных ошибок

В этой статье мыпопробуем провести небольшое расследование, посвященное тому, как найти и обезвредить «тихого убийцу». В частности, мы на конкретных примерах разберём утечки пам...

Как мы построили речевую аналитику для кол-центров и начали анализировать тысячи звонков

Как мы построили речевую аналитику для кол-центров и начали анализировать тысячи звонков

Привет! Я Артём Юрченко — DS-инженер в команде Недвижимости Авито. Наши кол-центры совершают до 30 000 звонков в день, и вручную можно проверить лишь небольшую часть из них. Рас...

Секреты Docker Swarm: как сделать их одноразовыми с помощью именованных каналов (FIFO)

Секреты Docker Swarm: как сделать их одноразовыми с помощью именованных каналов (FIFO)

Docker Swarm предоставляет встроенный механизм управления секретами: пароли, ключи API и сертификаты передаются в контейнеры через зашифрованный канал и монтируются в /run/secre...

[Перевод] Навыки в OpenClaw: установка, создание и защита от вредоносных наборов

[Перевод] Навыки в OpenClaw: установка, создание и защита от вредоносных наборов

341 вредоносный навык на 2857 проверенных — и это только то, что нашли. Навыки в OpenClaw — это не плагины и не контент. Это инструкции, по которым агент читает файлы, запускает...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
Делаю менеджер политик Browser Policy Manager для Firefox. Буду рад обратной связи

Делаю менеджер политик Browser Policy Manager для Firefox. Буду рад обратной связи

Идея этого проекта пришла мне в голову около семи лет назад, но до реализации я добрался только сейчас, т.к. есть некоторое время на это, пока ищу новую работу. Ну, и важно упом...

Тихий убийца: Деградация производительности без явных ошибок

Тихий убийца: Деградация производительности без явных ошибок

В этой статье мыпопробуем провести небольшое расследование, посвященное тому, как найти и обезвредить «тихого убийцу». В частности, мы на конкретных примерах разберём утечки пам...

Как мы построили речевую аналитику для кол-центров и начали анализировать тысячи звонков

Как мы построили речевую аналитику для кол-центров и начали анализировать тысячи звонков

Привет! Я Артём Юрченко — DS-инженер в команде Недвижимости Авито. Наши кол-центры совершают до 30 000 звонков в день, и вручную можно проверить лишь небольшую часть из них. Рас...

Секреты Docker Swarm: как сделать их одноразовыми с помощью именованных каналов (FIFO)

Секреты Docker Swarm: как сделать их одноразовыми с помощью именованных каналов (FIFO)

Docker Swarm предоставляет встроенный механизм управления секретами: пароли, ключи API и сертификаты передаются в контейнеры через зашифрованный канал и монтируются в /run/secre...