News Grower

Независимое покрытие AI, стартапов и технологий.

Anthropic проверяли, не задумал ли их ИИ чего плохого. Ответ — почти нет

Где-то в недрах Anthropic сидят люди, чья работа - выяснить, не пытается ли их самая умная модель тихо сломать мир. Они выпустили 53-страничный отчёт о том, как искали зло в Claude Opus 4.6. Anthropic взяли Claude Opus 4.6 - модель, которая уже вовсю пишет код на их собственной инфраструктуре, генерирует данные для ...

Автор: wearetyomsmnv Оригинальный источник
Anthropic проверяли, не задумал ли их ИИ чего плохого. Ответ — почти нет

Где-то в недрах Anthropic сидят люди, чья работа - выяснить, не пытается ли их самая умная модель тихо сломать мир. Они выпустили 53-страничный отчёт о том, как искали зло в Claude Opus 4.6. Anthropic взяли Claude Opus 4.6 - модель, которая уже вовсю пишет код на их собственной инфраструктуре, генерирует данные для обучения, помогает проводить исследования - и попытались доказать, что она не способна их подставить. Исследование охватывает восемь конкретных путей к катастрофе: от тихого саботажа научных результатов до самостоятельной эксфильтрации весов модели на внешний сервер. По каждому пути - разбор мотивации, возможностей и того, что мешает это реализовать. Заглянуть за забор

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

Я записываю онлайн-встречи. И вам советую — 2

Я записываю онлайн-встречи. И вам советую — 2

Если вы помните первую статью, я рассказывал про небольшое macOS‑приложение для фоновой записи таун‑холлов и других “скучных” встреч. Оно работает локально, без облака, транскри...

Огород на подоконнике: почему удалёнщики мечтают переехать из мегаполиса

Огород на подоконнике: почему удалёнщики мечтают переехать из мегаполиса

“Wake up! Из «Матрицы» сойду - Трава по пояс!”Удалёнщик берёт красную таблетку, просыпается — и обнаруживает, что вокруг не зелёные поля, а расчистка снега, извоз детей в школу ...

[Перевод] Раздувание памяти JDK 17 в контейнерах: разбор инцидента

[Перевод] Раздувание памяти JDK 17 в контейнерах: разбор инцидента

В новом переводе от команды Spring АйО разберем тему раздувания памяти в JDK 17. Апгрейд микросервисов с JDK 8 на JDK 17 прошел dev и QA спокойно, но в проде через 2-3 часа все ...

Один разработчик + Claude Code = GEO платформа для мониторинга и повышения видимости бренда в 9 нейросетях

Один разработчик + Claude Code = GEO платформа для мониторинга и повышения видимости бренда в 9 нейросетях

Сентябрь 2025, шёл шестой год в роли мобильного разработчика, пишу приложение для туроператора Biblio Globus. В один день в общем чате CEO спрашивает «Кто что знает про GEO?» — ...

ИИ-модель Claude обнаружила уязвимость и разработала рабочий эксплойт для FreeBSD

ИИ-модель Claude обнаружила уязвимость и разработала рабочий эксплойт для FreeBSD

ИИ-модель Claude вместе с исследователем Николасом Карлини (Nicholas Carlini) примерно за 4 часа автономно создала два рабочих эксплойта для уязвимости CVE-2026-4747 в ядре Free...

Рекламный слот

Встроенный блок в статье

Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.

Партнерский слот

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Я записываю онлайн-встречи. И вам советую — 2

Я записываю онлайн-встречи. И вам советую — 2

Если вы помните первую статью, я рассказывал про небольшое macOS‑приложение для фоновой записи таун‑холлов и других “скучных” встреч. Оно работает локально, без облака, транскри...

Огород на подоконнике: почему удалёнщики мечтают переехать из мегаполиса

Огород на подоконнике: почему удалёнщики мечтают переехать из мегаполиса

“Wake up! Из «Матрицы» сойду - Трава по пояс!”Удалёнщик берёт красную таблетку, просыпается — и обнаруживает, что вокруг не зелёные поля, а расчистка снега, извоз детей в школу ...

[Перевод] Раздувание памяти JDK 17 в контейнерах: разбор инцидента

[Перевод] Раздувание памяти JDK 17 в контейнерах: разбор инцидента

В новом переводе от команды Spring АйО разберем тему раздувания памяти в JDK 17. Апгрейд микросервисов с JDK 8 на JDK 17 прошел dev и QA спокойно, но в проде через 2-3 часа все ...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
Я записываю онлайн-встречи. И вам советую — 2

Я записываю онлайн-встречи. И вам советую — 2

Если вы помните первую статью, я рассказывал про небольшое macOS‑приложение для фоновой записи таун‑холлов и других “скучных” встреч. Оно работает локально, без облака, транскри...

Не доверяй чужому VPN: поднимаем self-hosted AmneziaWG с веб-панелью

Не доверяй чужому VPN: поднимаем self-hosted AmneziaWG с веб-панелью

В медиаполе снова пошла знакомая волна предупреждений: пользоваться VPN и другими средствами обхода блокировок не только нежелательно, но еще и опасно. Мошенники крадут данные, ...

Огород на подоконнике: почему удалёнщики мечтают переехать из мегаполиса

Огород на подоконнике: почему удалёнщики мечтают переехать из мегаполиса

“Wake up! Из «Матрицы» сойду - Трава по пояс!”Удалёнщик берёт красную таблетку, просыпается — и обнаруживает, что вокруг не зелёные поля, а расчистка снега, извоз детей в школу ...

Дополнительное покрытие этой темы

Похожие публикации и близкие по смыслу материалы по этой же теме.

Мошенники начали маскировать вредоносы под утекшие исходники Anthropic Claude Code

Мошенники начали маскировать вредоносы под утекшие исходники Anthropic Claude Code

На этой неделе произошла утечка исходного кода сервиса Anthropic Claude Code — компания приняла меры, чтобы защитить его, но скандалом воспользовались мошенники, и в некоторых с...

Anthropic вспомнила об авторских правах — она пытается смягчить последствия утечки кода Claude Code

Anthropic вспомнила об авторских правах — она пытается смягчить последствия утечки кода Claude Code

Компания Anthropic обучала свои модели ИИ с многочисленными нарушениями авторских прав, но отреагировала предельно негативно, когда сама попала в аналогичную ситуацию. После слу...

Обновление Anthropic Claude случайно раскрыло перспективные функции чат-бота, включая виртуального питомца по типу Тамагочи

Обновление Anthropic Claude случайно раскрыло перспективные функции чат-бота, включая виртуального питомца по типу Тамагочи

Задолго до начала бурного развития систем искусственного интеллекта на психологической зависимости людей от виртуальных компаньонов пытался заработать производитель электронных ...

Кибероттепель в Москве, а также слухи о грядущих AGI-моделях от OpenAI & Anthropic

Кибероттепель в Москве, а также слухи о грядущих AGI-моделях от OpenAI & Anthropic

Самые интересные новости финансов и технологий в России и мире за неделю: в столице опять дали интернет, новый биржевой фонд Лежебоки, уголовка за незаконный майнинг в РФ, штраф...