News Grower

Независимое покрытие AI, стартапов и технологий.

Сбежать из квест-комнаты или притвориться «кожаным мешком» — необычные бенчмарки для нейросетей

Мы в Beeline Cloud рассказывали о необычных бенчмарках для оценки больших языковых моделей (БЯМ) — например, когда нейросетям предлагают нарисовать пеликана на велосипеде или разобрать по косточкам шутку из британского юмористического шоу. Недавно в сети стал вирусным еще один тест, в котором чат-ботов просили ответ...

Автор: beeline_cloud (Beeline Cloud) Оригинальный источник
Сбежать из квест-комнаты или притвориться «кожаным мешком» — необычные бенчмарки для нейросетей

Мы в Beeline Cloud рассказывали о необычных бенчмарках для оценки больших языковых моделей (БЯМ) — например, когда нейросетям предлагают нарисовать пеликана на велосипеде или разобрать по косточкам шутку из британского юмористического шоу. Недавно в сети стал вирусным еще один тест, в котором чат-ботов просили ответить на простой вопрос — как лучше добраться до автомойки: пешком или на автомобиле? Задача с подвохом, и далеко не все модели с ней справляются. Сегодня расскажем о других необычных тестах, авторы которых пытаются «подловить» нейросети.

Краткая сводка

В статье рассказывается о необычных бенчмарках для оценки больших языковых моделей, включая творческие задания и провокационные вопросы, такие как лучший способ добраться до автомойки, которые позволяют выявлять слабости нейросетей.

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента

Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента

В Ташкенте курсируют около 1 800 активных автобусов на 170 маршрутах. Их GPS-координаты поступают каждые 10 секунд. В сутки это составляет порядка 15 миллионов координатных пинг...

[Перевод] OpenAI: сделка с Пентагоном, бойкот, иск на $134 млрд и война. Полная хронология краха

[Перевод] OpenAI: сделка с Пентагоном, бойкот, иск на $134 млрд и война. Полная хронология краха

В феврале CEO Anthropic заявил, что не может «по совести» дать Министерству обороны неограниченный доступ к своим ИИ-системам. Через несколько часов администрация Трампа назвала...

[Перевод] Как распознавать контент, созданный нейросетями (рекомендации для репортеров)

[Перевод] Как распознавать контент, созданный нейросетями (рекомендации для репортеров)

В наши дни соотношение полезного сигнала и шума в информационном пространстве приближается к единице. Иными словами, дезинформации почти столько же, сколько реальных фактов — и ...

KPI по ИИ: как «эффективность» убивает мотивацию разработчика (и при чем тут синдром самозванца)

KPI по ИИ: как «эффективность» убивает мотивацию разработчика (и при чем тут синдром самозванца)

Всем привет. Меня зовут Максим, я разработчик в одном из крупных финтехов России. У нас сейчас (наверно, как и у всех) интенсивно вводят ИИ-агенты для написания кода. Плюс необх...

DIY: Ардуино и холодильная комната

Началась эта история еще осенью, когда мне вдруг потребовалось небольшое помещение в доме, в котором поддерживалась бы стабильная температура +7 градусов. Ну, почти как серверна...

Рекламный слот

Встроенный блок в статье

Зарезервированный партнерский слот для релевантных инструментов, сервисов и аккуратных редакционных интеграций.

Партнерский слот

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента

Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента

В Ташкенте курсируют около 1 800 активных автобусов на 170 маршрутах. Их GPS-координаты поступают каждые 10 секунд. В сутки это составляет порядка 15 миллионов координатных пинг...

[Перевод] OpenAI: сделка с Пентагоном, бойкот, иск на $134 млрд и война. Полная хронология краха

[Перевод] OpenAI: сделка с Пентагоном, бойкот, иск на $134 млрд и война. Полная хронология краха

В феврале CEO Anthropic заявил, что не может «по совести» дать Министерству обороны неограниченный доступ к своим ИИ-системам. Через несколько часов администрация Трампа назвала...

[Перевод] Как распознавать контент, созданный нейросетями (рекомендации для репортеров)

[Перевод] Как распознавать контент, созданный нейросетями (рекомендации для репортеров)

В наши дни соотношение полезного сигнала и шума в информационном пространстве приближается к единице. Иными словами, дезинформации почти столько же, сколько реальных фактов — и ...

KPI по ИИ: как «эффективность» убивает мотивацию разработчика (и при чем тут синдром самозванца)

KPI по ИИ: как «эффективность» убивает мотивацию разработчика (и при чем тут синдром самозванца)

Всем привет. Меня зовут Максим, я разработчик в одном из крупных финтехов России. У нас сейчас (наверно, как и у всех) интенсивно вводят ИИ-агенты для написания кода. Плюс необх...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента

Как я обрабатываю 15 миллионов GPS-пингов в день для системы транспортной аналитики Ташкента

В Ташкенте курсируют около 1 800 активных автобусов на 170 маршрутах. Их GPS-координаты поступают каждые 10 секунд. В сутки это составляет порядка 15 миллионов координатных пинг...

[Перевод] OpenAI: сделка с Пентагоном, бойкот, иск на $134 млрд и война. Полная хронология краха

[Перевод] OpenAI: сделка с Пентагоном, бойкот, иск на $134 млрд и война. Полная хронология краха

В феврале CEO Anthropic заявил, что не может «по совести» дать Министерству обороны неограниченный доступ к своим ИИ-системам. Через несколько часов администрация Трампа назвала...

[Перевод] Как распознавать контент, созданный нейросетями (рекомендации для репортеров)

[Перевод] Как распознавать контент, созданный нейросетями (рекомендации для репортеров)

В наши дни соотношение полезного сигнала и шума в информационном пространстве приближается к единице. Иными словами, дезинформации почти столько же, сколько реальных фактов — и ...

KPI по ИИ: как «эффективность» убивает мотивацию разработчика (и при чем тут синдром самозванца)

KPI по ИИ: как «эффективность» убивает мотивацию разработчика (и при чем тут синдром самозванца)

Всем привет. Меня зовут Максим, я разработчик в одном из крупных финтехов России. У нас сейчас (наверно, как и у всех) интенсивно вводят ИИ-агенты для написания кода. Плюс необх...