LLM под капотом. Модель выдумала телефон доверия — чиним архитектурой, не промптом
Девушка пересылает боту переписку с бойфрендом. Модель видит сигналы опасности (эмоциональное насилие, изоляция) и отвечает номером телефона доверия. Заботливо. Ответственно. Одна проблема: это детская горячая линия. Модель галлюцинировала контакт кризисной помощи. В промпте написано «НЕ придумывай контактные данные...
Девушка пересылает боту переписку с бойфрендом. Модель видит сигналы опасности (эмоциональное насилие, изоляция) и отвечает номером телефона доверия. Заботливо. Ответственно. Одна проблема: это детская горячая линия. Модель галлюцинировала контакт кризисной помощи. В промпте написано «НЕ придумывай контактные данные». Не помогает. Желание быть полезной в модели сильнее любой инструкции. Это не проблема промптинга. Это проблема архитектуры.
Краткая сводка
Модель, отвечая на сообщение о эмоциональном насилии, выдалa вымышленный номер детской горячей линии, игнорируя инструкцию «НЕ придумывай контактные данные», что свидетельствует о проблеме в её архитектуре, а не в промптинге.
Связанные теги
Компании и люди
Линия сюжета
Продолжить следить за темой
Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.
NextAuth + Django JWT без второй авторизации и ручного хаоса токенов
Во многих fullstack-проектах на Next.js и Django авторизация разваливается в одном и том же месте. На фронте удобно использовать NextAuth, потому что он закрывает формы входа, O...
Как DNS-фильтрация защитила от компрометации axios в реальном кейсе
31 марта 2026 года один из самых популярных npm-пакетов в мире превратился в оружие. Разбираем, как устроена атака на цепочку поставок через axios, почему классические средства ...
Кандидаты наносят ответный удар: как ИИ научился обходить фильтры найма
Введение. Логичное продолжение старой проблемыКак я уже писала раньше, современный рынок найма в значительной степени выстроен как система отсева.Отсев включается уже на самом п...
Почему мы перерабатываем или зэк, еврей и курево
Есть у меня одна мысль на тему того, откуда берутся переработки, почему эта ситуация устойчиво существует и не решается простыми методами такими как увещевания о пользе соблюден...
Недельный геймдев: #272 — 5 апреля, 2026
Из новостей: Eidos Montreal уволила более 100 разработчиков, общие продажи Death Stranding 2 достигли 2 млн, ИИ-подразделение Take-Two накрыла волна увольнений, релиз UNIGINE SD...
Модальные окна в React: архитектура управления для сложных интерфейсов
Модальные окна — один из самых недооценённых слоёв UI-архитектуры. Формы, подтверждения, панели действий — в любом крупном проекте их десятки. И почти в каждом проекте их управл...
Страницы сущностей
Рекламный слот
Встроенный блок в статье
Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.
Похожие статьи
Еще материалы, которые пересекаются по тегам, источнику или категории.
NextAuth + Django JWT без второй авторизации и ручного хаоса токенов
Во многих fullstack-проектах на Next.js и Django авторизация разваливается в одном и том же месте. На фронте удобно использовать NextAuth, потому что он закрывает формы входа, O...
Как DNS-фильтрация защитила от компрометации axios в реальном кейсе
31 марта 2026 года один из самых популярных npm-пакетов в мире превратился в оружие. Разбираем, как устроена атака на цепочку поставок через axios, почему классические средства ...
Кандидаты наносят ответный удар: как ИИ научился обходить фильтры найма
Введение. Логичное продолжение старой проблемыКак я уже писала раньше, современный рынок найма в значительной степени выстроен как система отсева.Отсев включается уже на самом п...
Почему мы перерабатываем или зэк, еврей и курево
Есть у меня одна мысль на тему того, откуда берутся переработки, почему эта ситуация устойчиво существует и не решается простыми методами такими как увещевания о пользе соблюден...
Еще материалы от Habr
Свежие публикации и продолжение темы от той же редакции.
NextAuth + Django JWT без второй авторизации и ручного хаоса токенов
Во многих fullstack-проектах на Next.js и Django авторизация разваливается в одном и том же месте. На фронте удобно использовать NextAuth, потому что он закрывает формы входа, O...
Как DNS-фильтрация защитила от компрометации axios в реальном кейсе
31 марта 2026 года один из самых популярных npm-пакетов в мире превратился в оружие. Разбираем, как устроена атака на цепочку поставок через axios, почему классические средства ...
Кандидаты наносят ответный удар: как ИИ научился обходить фильтры найма
Введение. Логичное продолжение старой проблемыКак я уже писала раньше, современный рынок найма в значительной степени выстроен как система отсева.Отсев включается уже на самом п...
Почему мы перерабатываем или зэк, еврей и курево
Есть у меня одна мысль на тему того, откуда берутся переработки, почему эта ситуация устойчиво существует и не решается простыми методами такими как увещевания о пользе соблюден...