News Grower

Независимое покрытие AI, стартапов и технологий.

Habr 25.03.2026 04:46 Developer Tools

Мы протестировали 22 нейросети на задачах для российских учителей. Ни одна не знает чувашский

Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское о...

Автор: daniel_ivanov Оригинальный источник

Я живу в Чебоксарах и запускаю ИИ-пилот в местной школе. Когда понадобилось проверить, какие LLM действительно способны помочь российским учителям в их работе — оказалось, что бенчмарка для этого не существует. MERA тестирует, может ли модель решить задания ЕГЭ. EduBench — только английский и китайский. Российское образование — это ФГОС, технологические карты уроков, ОГЭ, чувашский язык — и ничего из этого ни один бенчмарк не покрывает.Мы сделали EduBench-RU — первый бенчмарк для оценки LLM на задачах российского образования в школах. 50 промптов, 22 модели, двойная оценка. И нашли кое-что неожиданное.

Краткая сводка

Авторы создали первый российский бенчмарк EduBench‑RU, включающий 50 заданий по ФГОС, ОГЭ, технологическим картам и чувашскому языку, и протестировали 22 крупные языковые модели, обнаружив, что ни одна из них не владеет чувашским языком.

Связанные теги

Компании и люди

Линия сюжета

Продолжить следить за темой

Переходите к связанным материалам, страницам сущностей и активным линиям сюжета.

Уязвимости в Spring AI и ONNX: как дыры в ИИ‑фреймворках превращаются в утечки данных и чужие модели
Habr 25.03.2026 06:26 Developer Tools

Уязвимости в Spring AI и ONNX: как дыры в ИИ‑фреймворках превращаются в утечки данных и чужие модели

ИИ‑фреймворки давно въехали в прод, но к ним часто относятся как к «научной приблуде», а не к ещё одному входу в ваши данные и инфраструктуру. Spring AI и ONNX крутятся где‑то м...

asapBI: работа с базами данных в оффлайне, или «Эй, обалдел!??? У тебя и так удаленка!!!»
Habr 25.03.2026 06:22 Developer Tools

asapBI: работа с базами данных в оффлайне, или «Эй, обалдел!??? У тебя и так удаленка!!!»

А потом ты выезжаешь за МКАД, садишься в поезд или просто решаешь поработать с веранды на даче, и реальность бьет под дых. Мобильный интернет сегодня — это лотерея. Вчера он был...

Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали
Habr 25.03.2026 06:20 Developer Tools

Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали

Один простой вопрос. Девять уверенных ответов. Восемь из них — ложь.примечание: Иллюстрация сгалюционирована ИИЯ отправил 29 крупнейшим языковым моделям мира одно сообщение — и ...

Почему b2b-услуги самая сложная ниша для Яндекс Директ и 4 бизнеса, у которых это всё-таки получилось
Habr 25.03.2026 06:18 Developer Tools

Почему b2b-услуги самая сложная ниша для Яндекс Директ и 4 бизнеса, у которых это всё-таки получилось

Привет, Хабр! Это Сергей Перевозчиков, основатель агентства контекстной рекламы «КонтекстЛаб». Когда ко мне приходят с b2b-услугами, часто слышу одни и те же вопросы: что делать...

Можно и не клонировать: зачем GitVerse сделал новый веб-редактор кода
Habr 25.03.2026 06:00 Developer Tools

Можно и не клонировать: зачем GitVerse сделал новый веб-редактор кода

От мессенджеров и видеоплееров до «необходимых для работы» инструментов на десятки гигабайтов. Интернет был, скорее, местом для поиска, а не для реальной деятельности. Но браузе...

Иностранные слова в брендинге и интерфейсах IT- компании. Что изменилось с 1 марта 2026
Habr 25.03.2026 05:55 Developer Tools

Иностранные слова в брендинге и интерфейсах IT- компании. Что изменилось с 1 марта 2026

С 1 марта 2026 года в России действует закон, по которому публичная информация для потребителей должна быть на русском языке. Пока закон обсуждался, большинство IT-компаний смот...

Рекламный слот

Article monetization slot

Reserved for contextual monetization inside article pages.

Explore options

Похожие статьи

Еще материалы, которые пересекаются по тегам, источнику или категории.

Уязвимости в Spring AI и ONNX: как дыры в ИИ‑фреймворках превращаются в утечки данных и чужие модели
Habr 25.03.2026 06:26 Developer Tools

Уязвимости в Spring AI и ONNX: как дыры в ИИ‑фреймворках превращаются в утечки данных и чужие модели

ИИ‑фреймворки давно въехали в прод, но к ним часто относятся как к «научной приблуде», а не к ещё одному входу в ваши данные и инфраструктуру. Spring AI и ONNX крутятся где‑то м...

asapBI: работа с базами данных в оффлайне, или «Эй, обалдел!??? У тебя и так удаленка!!!»
Habr 25.03.2026 06:22 Developer Tools

asapBI: работа с базами данных в оффлайне, или «Эй, обалдел!??? У тебя и так удаленка!!!»

А потом ты выезжаешь за МКАД, садишься в поезд или просто решаешь поработать с веранды на даче, и реальность бьет под дых. Мобильный интернет сегодня — это лотерея. Вчера он был...

Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали
Habr 25.03.2026 06:20 Developer Tools

Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали

Один простой вопрос. Девять уверенных ответов. Восемь из них — ложь.примечание: Иллюстрация сгалюционирована ИИЯ отправил 29 крупнейшим языковым моделям мира одно сообщение — и ...

Почему b2b-услуги самая сложная ниша для Яндекс Директ и 4 бизнеса, у которых это всё-таки получилось
Habr 25.03.2026 06:18 Developer Tools

Почему b2b-услуги самая сложная ниша для Яндекс Директ и 4 бизнеса, у которых это всё-таки получилось

Привет, Хабр! Это Сергей Перевозчиков, основатель агентства контекстной рекламы «КонтекстЛаб». Когда ко мне приходят с b2b-услугами, часто слышу одни и те же вопросы: что делать...

Еще материалы от Habr

Свежие публикации и продолжение темы от той же редакции.

Открыть страницу источника
Уязвимости в Spring AI и ONNX: как дыры в ИИ‑фреймворках превращаются в утечки данных и чужие модели
Habr 25.03.2026 06:26 Developer Tools

Уязвимости в Spring AI и ONNX: как дыры в ИИ‑фреймворках превращаются в утечки данных и чужие модели

ИИ‑фреймворки давно въехали в прод, но к ним часто относятся как к «научной приблуде», а не к ещё одному входу в ваши данные и инфраструктуру. Spring AI и ONNX крутятся где‑то м...

asapBI: работа с базами данных в оффлайне, или «Эй, обалдел!??? У тебя и так удаленка!!!»
Habr 25.03.2026 06:22 Developer Tools

asapBI: работа с базами данных в оффлайне, или «Эй, обалдел!??? У тебя и так удаленка!!!»

А потом ты выезжаешь за МКАД, садишься в поезд или просто решаешь поработать с веранды на даче, и реальность бьет под дых. Мобильный интернет сегодня — это лотерея. Вчера он был...

Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали
Habr 25.03.2026 06:20 Developer Tools

Я задал очень простой вопрос, но 76% ИИ-моделей мне соврали

Один простой вопрос. Девять уверенных ответов. Восемь из них — ложь.примечание: Иллюстрация сгалюционирована ИИЯ отправил 29 крупнейшим языковым моделям мира одно сообщение — и ...

Почему b2b-услуги самая сложная ниша для Яндекс Директ и 4 бизнеса, у которых это всё-таки получилось
Habr 25.03.2026 06:18 Developer Tools

Почему b2b-услуги самая сложная ниша для Яндекс Директ и 4 бизнеса, у которых это всё-таки получилось

Привет, Хабр! Это Сергей Перевозчиков, основатель агентства контекстной рекламы «КонтекстЛаб». Когда ко мне приходят с b2b-услугами, часто слышу одни и те же вопросы: что делать...