Определяют время и играют в игры. 3 необычных бенчмарка для ИИ

Моделей искусственного интеллекта (ИИ) с каждым годом становится все больше, при этом они развиваются и становятся умнее. Чтобы оценить их прогресс, люди разрабатывают бенчмарки — специальные тесты для измерения производительности разных моделей.

Зачем нужны бенчмарки

Бенчмарки для искусственного интеллекта можно назвать измерительными инструментами, Которые позволяют оценить «ум», производительность и другие параметры ИИ-инструментов, а также на основе этих тестов выявить, какая модель развивается быстрее.

То есть, бенчмарки нужны для того, чтобы:

Отслеживать прогресс

Исследователи могут сравнить, как определенная модель проходила тестирование пять лет назад и как справляется с ним в настоящее время. Это наглядно продемонстрирует, насколько быстро развивается область.

Выявлять сильные и слабые стороны

Бенчмарки позволяют выявить как уязвимости, чтобы инженеры могли устранить их, так и преимущества, которые в дальнейшем можно будет использовать в конкурентной борьбе с другими ИИ.

Сравнивать разные ИИ

Специальные тесты создают единое «поле для соревнований», где можно получить честное и объективное сравнение возможностей ИИ.

Существует много так называемых классических бенчмарков. К примеру, MMLU (Massive Multitask Language Understanding) — это эталонный набор задач, тестирующий ИИ на энциклопедические знания и возможность рассуждать. GSM8K — бенчмарк, состоящий из сложных математических задач школьной программы, или ImageNet, который позволяет узнать, умеет ли ИИ распознавать изображения.

Однако есть и другие, необычные бенчмарки.

ClockBench — проверка на пользование аналоговыми часами

Умение определять время по аналоговым часам — базовое знание для человека, однако, как выяснилось, далеко не все модели ИИ умеют это делать. Чтобы в этом убедиться, был придуман специальный бенчмарк ClockBench.

Тест состоит из 180 изображений аналоговых часов — это 36 циферблатов разного формата, каждый представлен в пяти вариантах и показывает разное время. Искусственному интеллекту в процессе прохождения теста необходимо было не только ответить на вопрос, который сейчас час, но и вычесть или прибавить определенный промежуток к текущему времени, назвать время в другом часовом поясе исходя из текущего или же перевести одну из стрелок.

Авторы бенчмарка для оценки качества ответов отталкивались от результатов человека — люди в тесте набирают 90,7% правильных ответов. Однако умным моделям оказалось далеко до таких результатов. Вот как выглядит рейтинг самых успешных ИИ:

• Qwen 3-VL 235B Instruct (от Alibaba) — 39,4% правильных ответов • GPT-5 Chat (OpenAI) — 32,8% • Gemini 2.5 Pro (Google) — 18,9%.

Создатели опубликовали 10 примеров тестовых изображений. Полностью тест выложен не был, чтобы ИИ на этих данных не обучился его проходить.

Источник: clockbench.ai

Among AIs — игра для ИИ, где есть победитель

Компьютерные игры созданы не только для развлечения, но также развивают дедукцию. Поэтому разработчики компании 4Wall AI придумали бенчмарк Among AIs на основе знаменитой игры Among Us.

Для ИИ-моделей правила немного упростили, суть в следующем: на космическом корабле есть пять мирных участников и один самозванец, который может убивать других жителей. Если кто-то погиб, другие собираются и пытаются выявить преступника, чтобы выкинуть его в открытый космос.

Всего бенчмарк проходили 6 разных моделей ИИ, которые суммарно сыграли 60 игр. Для победы было необходимо либо остаться среди выживших (за это присваивали 10 очков), либо победить самозванцем (50 очков).

«Among AIs тестирует социальные рассуждения и дедукцию, проверяет умение обманывать, убеждать», — объяснили авторы бенчмарка. Они добавляют, что этот тест также оценивает, как ИИ взаимодействуют друг с другом в сложных ситуациях.

Первое место завоевал GPT-5 Chat, который 6 раз победил в качестве самозванца и 45 — будучи мирным жителем. По оценкам авторов, именно эта модель показала самый высокий уровень социального интеллекта, то есть при игре за обычного участника она брала на себя роль лидера в обсуждениях и умело отстаивала свою позицию и при этом также хорошо адаптировалась к роли злодея, меняя линию поведения и начиная умело врать.

Второе место заняла модель Claude Sonnet 4, которая выиграла 3 игры в качестве самозванца и 42 — за мирных жителей. Отмечается, что ИИ хорошо выполнял задачи и участвовал в обсуждениях, но чаще ошибался. Третье место у Kimi K2 (41 победа за мирных и 3 — за самозванца). Эта модель выбрала другую позицию и старалась больше поддерживать чужое мнение в обсуждениях.

Год без комиссии

Инвестируйте с бонусом — вернем до 1 000 000 ₽

Инвестировать

Как ИИ торгуют криптовалютой

Есть тесты, которые проверяют ИИ на необычные способности. Например, команда Nof1 представила публичную версию бенчмарка Alpha Arena — площадку, где разные модели искусственного интеллекта торгуют криптовалютой.

Так, на старте каждый ИИ получил по $10 тыс., которые может вложить в любые сделки с криптовалютой. Авторы бенчмарка уточняют, что модели ИИ при принятии решений чаще не ориентируются на новостную повестку, которая могла бы повлиять на курс, а полагаются на технический анализ.

Источник: nof1.ai

Соревнования будут проходить на протяжении нескольких месяцев. На момент написания текста лидером стал DeepSeek, который смог увеличить свой капитал за два дня почти на $4 тыс. За ним следует Grok 4, который заработал около $3,5 тыс., третье место у Claude Sonnet 4.5 — плюс $2,4 тыс.

При этом есть ИИ-агенты, которые ушли в минус. Так, GPT-5 Chat потерял более $2,5 тыс., Gemini 2.5 Pro — почти $3 тыс.

БКС Мир инвестиций