News Grower

Независимое покрытие AI, стартапов и технологий.

LLM под капотом. Модель выдумала телефон доверия — чиним архитектурой, не промптом

Девушка пересылает боту переписку с бойфрендом. Модель видит сигналы опасности (эмоциональное насилие, изоляция) и отвечает номером телефона доверия. Заботливо. Ответственно. Одна проблема: это детская горячая линия. Модель галлюцинировала контакт кризисной помощи. В промпте написано «НЕ придумывай контактные данные...

LLM под капотом. Модель выдумала телефон доверия — чиним архитектурой, не промптом

Девушка пересылает боту переписку с бойфрендом. Модель видит сигналы опасности (эмоциональное насилие, изоляция) и отвечает номером телефона доверия. Заботливо. Ответственно. Одна проблема: это детская горячая линия. Модель галлюцинировала контакт кризисной помощи. В промпте написано «НЕ придумывай контактные данные». Не помогает. Желание быть полезной в модели сильнее любой инструкции. Это не проблема промптинга. Это проблема архитектуры.

Краткая сводка

Модель, отвечая на сообщение о эмоциональном насилии, выдалa вымышленный номер детской горячей линии, игнорируя инструкцию «НЕ придумывай контактные данные», что свидетельствует о проблеме в её архитектуре, а не в промптинге.

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

NextAuth + Django JWT без второй авторизации и ручного хаоса токенов

NextAuth + Django JWT без второй авторизации и ручного хаоса токенов

Во многих fullstack-проектах на Next.js и Django авторизация разваливается в одном и том же месте. На фронте удобно использовать NextAuth, потому что он закрывает формы входа, O...

Как DNS-фильтрация защитила от компрометации axios в реальном кейсе

Как DNS-фильтрация защитила от компрометации axios в реальном кейсе

31 марта 2026 года один из самых популярных npm-пакетов в мире превратился в оружие. Разбираем, как устроена атака на цепочку поставок через axios, почему классические средства ...

Кандидаты наносят ответный удар: как ИИ научился обходить фильтры найма

Кандидаты наносят ответный удар: как ИИ научился обходить фильтры найма

Введение. Логичное продолжение старой проблемыКак я уже писала раньше, современный рынок найма в значительной степени выстроен как система отсева.Отсев включается уже на самом п...

Почему мы перерабатываем или зэк, еврей и курево

Есть у меня одна мысль на тему того, откуда берутся переработки, почему эта ситуация устойчиво существует и не решается простыми методами такими как увещевания о пользе соблюден...

Недельный геймдев: #272 — 5 апреля, 2026

Недельный геймдев: #272 — 5 апреля, 2026

Из новостей: Eidos Montreal уволила более 100 разработчиков, общие продажи Death Stranding 2 достигли 2 млн, ИИ-подразделение Take-Two накрыла волна увольнений, релиз UNIGINE SD...

Модальные окна в React: архитектура управления для сложных интерфейсов

Модальные окна в React: архитектура управления для сложных интерфейсов

Модальные окна — один из самых недооценённых слоёв UI-архитектуры. Формы, подтверждения, панели действий — в любом крупном проекте их десятки. И почти в каждом проекте их управл...

Рекламный слот

Встроенный блок в статье

Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.

Партнерский слот

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

NextAuth + Django JWT без второй авторизации и ручного хаоса токенов

NextAuth + Django JWT без второй авторизации и ручного хаоса токенов

Во многих fullstack-проектах на Next.js и Django авторизация разваливается в одном и том же месте. На фронте удобно использовать NextAuth, потому что он закрывает формы входа, O...

Как DNS-фильтрация защитила от компрометации axios в реальном кейсе

Как DNS-фильтрация защитила от компрометации axios в реальном кейсе

31 марта 2026 года один из самых популярных npm-пакетов в мире превратился в оружие. Разбираем, как устроена атака на цепочку поставок через axios, почему классические средства ...

Кандидаты наносят ответный удар: как ИИ научился обходить фильтры найма

Кандидаты наносят ответный удар: как ИИ научился обходить фильтры найма

Введение. Логичное продолжение старой проблемыКак я уже писала раньше, современный рынок найма в значительной степени выстроен как система отсева.Отсев включается уже на самом п...

Почему мы перерабатываем или зэк, еврей и курево

Есть у меня одна мысль на тему того, откуда берутся переработки, почему эта ситуация устойчиво существует и не решается простыми методами такими как увещевания о пользе соблюден...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
NextAuth + Django JWT без второй авторизации и ручного хаоса токенов

NextAuth + Django JWT без второй авторизации и ручного хаоса токенов

Во многих fullstack-проектах на Next.js и Django авторизация разваливается в одном и том же месте. На фронте удобно использовать NextAuth, потому что он закрывает формы входа, O...

Как DNS-фильтрация защитила от компрометации axios в реальном кейсе

Как DNS-фильтрация защитила от компрометации axios в реальном кейсе

31 марта 2026 года один из самых популярных npm-пакетов в мире превратился в оружие. Разбираем, как устроена атака на цепочку поставок через axios, почему классические средства ...

Кандидаты наносят ответный удар: как ИИ научился обходить фильтры найма

Кандидаты наносят ответный удар: как ИИ научился обходить фильтры найма

Введение. Логичное продолжение старой проблемыКак я уже писала раньше, современный рынок найма в значительной степени выстроен как система отсева.Отсев включается уже на самом п...

Почему мы перерабатываем или зэк, еврей и курево

Есть у меня одна мысль на тему того, откуда берутся переработки, почему эта ситуация устойчиво существует и не решается простыми методами такими как увещевания о пользе соблюден...