«Последний экзамен человечества». Как работает самый сложный тест для ИИ

История создания
Почему тест такой сложный
Как справляются ИИ

В мире появляется все больше моделей искусственного интеллекта. И многие люди используют их в повседневной жизни как для выполнения различных задач, так и в качестве советчиков. Но можно ли доверять ИИ как эксперту? Чтобы проверить это, был создан новый тест под названием «Последний экзамен человечества».

История создания

Идея создания сверхсложного теста для ИИ под названием «Последний экзамен человечества» (Humanity’s Last Exam) принадлежит исполнительном директору американского Центра безопасности искусственного интеллекта Дэну Хендриксу, который до этого уже выступал соавтором двух тестов для подобных моделей. По его словам, мысль о создании нового испытания для ИИ пришла к нему после разговора с Илоном Маском, который назвал существующие тесты слишком простыми.

Другие разработчики согласились, что, к примеру, один из знаменитых и часто используемых математических тестов для искусственного интеллекта MMLU (Massive Multitask Language Understanding), по сути, утратил способность находить значимые улучшения у новых моделей и не может выявить критические различия между наиболее эффективными из них.

Другими словами, стало очевидно, что нужен новый гораздо более сложный тест, который поможет установить экспертность ответов больших языковых моделей. Тогда Центр безопасности ИИ Хендрикс начал сотрудничество с компанией Scale AI для составления вопросов.

Первоначально тест собирались назвать «Последний рубеж человечества», однако позже это название отклонили, посчитав его слишком драматичным.

Так, 15 сентября 2024 г. был объявлен открытый сбор вопросов для теста, в котором мог принять любой желающий. Авторы лучших задач получали от $500 до $5 тыс. Около тысячи ученых и экспертов из 50 стран прислали суммарно более 70 тыс. вопросов — 13 тыс. из них оказались слишком сложными для ИИ.

На втором этапе была запушена программа, в рамках которой участники устраняли серьезные ошибки в отобранных данных. В случае успеха человеку также платили вознаграждение.

«По мере того как существующие тесты становятся слишком легкими, мы теряем способность различать системы искусственного интеллекта, которые могут сдать экзамены на степень бакалавра, и те, которые могут внести реальный вклад в передовые исследования и решение проблем», — сообщали разработчики.

К марту 2025 г. «Последний рубеж человечества» был готов.

Почему тест такой сложный

Этот тест состоит из 2,5 тыс. вопросов в более чем 100 дисциплинах. Из них 41% отведен математике, 11% — биологии и медицине, 10% — компьютерным наукам, по 9% — физике и гуманитарным наукам.

При этом около 14% вопросов предполагают, что языковая модель поймет не только вопрос, но и распознает картинку. 24% предусматривают несколько вариантов ответа, а остальные — однозначное решение.

Задачи являются сложными для неспециалистов в той или иной области, а их решение нельзя найти в интернете. Для того чтобы пройти тест, искусственный интеллект должен обладать экспертными знаниями в каждой сфере и уметь анализировать. А иногда, например, не только знать мировую историю, но и понимать культурный контекст той или иной эпохи.

Например, одни из вопросов звучит так: «Вот изображение римской надписи, первоначально найденной на надгробии. Предоставьте перевод пальмирского письма».

Другой пример: «Колибри, относящиеся к отряду Apodiformes, отличаются наличием парной овальной кости, расположенной с обеих сторон, — или сесамовидной кости, расположенной в каудолатеральной части расширенного крестообразного апоневроза места прикрепления m. depressor caudae. Сколько парных сухожилий поддерживает эта сесамовидная кость? Укажите число».

Как отмечают составители теста, ИИ не просят решить пока не поддавшиеся людям задачи тысячелетия. Однако ответить на поставленные в «Последнем экзамене человечества» вопросы будет невозможно без глубокого погружения в тему.

Как справляются ИИ

После запуска в начале 2025 г. «Последний экзамен человечества» устроили для шести ведущих языковых моделей искусственного интеллекта, и результаты оказались невпечатляющими. Так, GPT-4o справился только с 3,3% вопросов, Gemini — с 6,2%, OpenAI o1 — с 9,1%.

Однако результаты достаточно стремительно улучшаются. Судя по данным Scale AI за июнь, Gemini 2.5 Pro Preview сумел набрать 21,64%, а o3 (high) — 20,32%. А в июле Илон Маск представил новую модель ИИ Grok 4 и заявил, что ее результат достиг 25,4% — сейчас это является рекордом.

Составители теста во главе с Дэном Хендриксом считают, что, учитывая быстрые темпы развития ИИ, уже к концу 2025 г. ИИ смогут выполнять более 50% задач «Последнего экзамена человечества».

БКС Мир инвестиций

Читайте главные новости рынка в telegram-канале БКС Экспресс

Искусственный интеллект Высокие технологии Около рынка

‌

‌
‌

‌

‌
‌
‌

‌
‌
‌
‌
‌

«Последний экзамен человечества». Как работает самый сложный тест для ИИ

Содержание статьи

История создания

Почему тест такой сложный

Как справляются ИИ