Последний экзамен: тест, который ИИ проваливает

GPT-4o — 2,7%. Claude 3.5 Sonnet — 4,1%. OpenAI o1 — 8%. Человек-эксперт — около 90%.

Это не баги. Это результаты одного и того же экзамена: Humanity’s Last Exam, или HLE. Тысяча исследователей со всего мира создали набор из 2 500 вопросов, на которые не ответит ни одна современная нейросеть. Тест опубликован в Nature в январе 2026 года — и к марту ни одна модель не набрала даже половины.

2 500 вопросов, которые не гуглятся

Бенчмарк — стандартизированный тест для оценки ИИ-систем. Самый известный — MMLU (57 предметов, множественный выбор). Проблема: топовые модели уже набирают 90%+ на MMLU, и тест перестал различать сильных от сильнейших.

HLE задумывался как бенчмарк, который переживёт это. Организаторы — Center for AI Safety и Scale AI — пригласили почти 1 000 экспертов: математиков, химиков, лингвистов, историков, программистов. Каждый должен был предложить вопросы из своей узкой области — такие, чтобы ответ нельзя было найти поиском. Пальмирские надписи. Микроанатомия птиц. Произношение библейского иврита. Квантовая химия переходных металлов.

Ключевой фильтр: если хотя бы одна из топовых моделей отвечала правильно на этапе отбора — вопрос выбрасывали. HLE по определению содержит только то, что текущие ИИ-системы не могут решить.

Результат — 2 500 вопросов с единственным однозначным ответом. Все закрытые, все проверяемые. Никаких эссе, никакой субъективности. Либо знаешь — либо нет.

От пальмирских надписей до квантовой химии

Что делает HLE таким сложным? Не математика сама по себе — GPT-5 решает олимпиадные задачи. Не программирование — Codex пишет рабочий код. Дело в пересечении глубокой экспертизы и редких знаний.

Один из авторов, Тунг Нгуен из Texas A&M, написал 73 вопроса — второй результат по количеству. Большинство из области математики и информатики. «Интеллект — это не распознавание паттернов, — объясняет он. — Это глубина, контекст и специализированная экспертиза».

Типичный вопрос HLE требует: знать факт, который известен нескольким сотням людей в мире; применить к нему рассуждение из смежной области; выдать точный, верифицируемый ответ. Ни один из этих шагов не выполняется поиском по интернету — потому что ответы не существуют в открытом виде.

Табло, которое никто не хотел видеть

Когда HLE запустили в конце 2025 года, результаты шокировали даже скептиков.

Лидерборд Humanity's Last Exam: Gemini 3.1 Pro Preview лидирует с 44,7%, за ним GPT-5.3 Codex с 39,9%

Рис. 1: Результаты моделей на HLE по данным Artificial Analysis (март 2026). Лучший результат — 44,7% (Gemini 3.1 Pro Preview). Ранние модели набирали менее 10%. Источник: Artificial Analysis

Первые участники — GPT-4o (2,7%) и Claude 3.5 Sonnet (4,1%) — выглядели хуже генератора случайных ответов. Даже o1, специально обученная для рассуждений, набрала только 8%. Человеческие эксперты на тех же вопросах показывали около 90%.

К марту 2026 года новые модели подтянулись. Gemini 3.1 Pro Preview — 44,7%. GPT-5.3 Codex — 39,9%. Но это всё ещё провал: меньше половины. А ведь для включения в тест вопрос должен был заваливать все модели на момент создания — то есть бенчмарк буквально запроектирован быть нерешаемым.

Почему нейросети не справляются

HLE бьёт по трём слабым местам одновременно. Первое — редкие знания. Модели обучены на интернете, а многие ответы HLE просто не встречаются в интернете. Они живут в головах нескольких десятков специалистов, в неоцифрованных книгах, в устной академической традиции.

Второе — многошаговое рассуждение через домены. Вопрос может начинаться в минералогии, проходить через термодинамику и заканчиваться в истории химии. Языковые модели хорошо рассуждают внутри одного домена, но теряют нить на стыках.

Третье — калибровка. Модели не просто ошибаются — они ошибаются уверенно. На вопросах HLE нейросети часто дают ответ с уверенностью 90–100% — и оказываются неправы. Этот феномен называют «уверенные галлюцинации», и HLE обнажает его как никакой другой тест.

Когда 30% «правильных» ответов — неправильные

HLE не обошёлся без скандала. Независимый анализ FutureHouse показал: около 30% ответов в секциях биологии и химии содержали ошибки. Автор вопроса сам указывал «правильный» ответ, а рецензентам давали около пяти минут на проверку задачи аспирантского уровня. Этого мало.

Из-за этого нейросеть может дать верный ответ и получить «неправильно», потому что ключ ошибочен. Критики прямо называют HLE «total joke» и предлагают радикальную переработку. Организаторы ответили: создали «золотые» поднаборы (Bio/Chem Gold), где каждый вопрос проверяют несколько экспертов и отдельные ИИ-верификаторы.

Вторая линия критики: значительная часть вопросов — это не проверка мышления, а академическая тривия. Знание самого редкого благородного газа в земной коре или произношения конкретного слова на мёртвом языке — это не интеллект. Это память. А проверять память у системы, обученной на корпусе текстов, — сомнительная затея.

Статья опубликована в Nature (том 649, стр. 1139–1146) в январе 2026 года и прошла рецензирование.

Зачем нам тест, который никто не может сдать

При всех проблемах, HLE сделал видимым важный разрыв: между тем, что ИИ кажется способен делать, и тем, что он действительно знает. На привычных бенчмарках модели набирают 90%+, и легко поверить, что до «настоящего» интеллекта осталось чуть-чуть. HLE показывает: разрыв огромен.

Создатель бенчмарка сам предсказывал, что HLE «не проживёт и года» — ожидая появления сверхчеловеческих математиков-ИИ к 2025. Год прошёл. Лучший результат — 44,7%. Экзамен жив, и это само по себе — результат.

Бенчмарки — не экзамены. Они не ставят оценку. Они измеряют расстояние: от того, где ИИ сейчас, до того, где мы хотим его видеть. HLE отмерил это расстояние честнее, чем что-либо до него — пусть и с 30% ошибок в ключах.

Последний экзамен: тест, который ИИ проваливает

2 500 вопросов, которые не гуглятся

От пальмирских надписей до квантовой химии

Табло, которое никто не хотел видеть

Почему нейросети не справляются

Когда 30% «правильных» ответов — неправильные

Зачем нам тест, который никто не может сдать

Источники

Оригинал

Связанные

Контекст

Данные

Читайте также

ИИ просканировал 67 000 магнитов и нашёл 25 альтернатив без редкоземельных элементов

SleepFM: ИИ предсказывает 130 болезней по одной ночи сна

«Большая пятёрка» 2.0: гены, стресс и смертность в науке о личности