
Исследовательский центр RDI Калифорнийского университета Беркли совместно с комитетом из более чем 300 экспертов запустил новый бенчмарк Agents' Last Exam (ALE) — наиболее жёсткий на сегодняшний день инструмент оценки практической эффективности ИИ-агентов в реальных профессиональных задачах с длинным горизонтом исполнения.
Сенсационным результатом стала победа GPT-5.5 от OpenAI (версия апреля 2026 года), работавшего через среду Codex: модель заняла первое место с показателем 24,0%, опередив только что выпущенный флагманский Claude Fable 5 от Anthropic класса Mythos, который занял лишь третью позицию с результатом 22,0%.
Принципиальное отличие ALE от предыдущих бенчмарков — отказ от изолированных задач по программированию в пользу оценки реального экономически значимого труда, максимально приближённого к задачам, влияющим на ВВП.
Примечательно, что даже лидирующая модель набрала лишь 24% — это означает, что самые передовые ИИ-системы в мире по-прежнему фундаментально не справляются с автономной профессиональной деятельностью.
Для инвесторов в OpenAI и Anthropic этот результат переформатирует нарратив: GPT-5.5 неожиданно восстанавливает технологическое лидерство OpenAI в сегменте агентного ИИ — именно того направления, которое аналитики считают следующим крупным источником монетизации.
Венчурные инвесторы и семейные офисы, рассматривающие pre-IPO позиции в OpenAI (оценка превышает $300 млрд) или Anthropic (последний раунд — $18,4 млрд), должны учитывать, что бенчмарки типа ALE становятся новым стандартом дью-дилидженса при оценке технологического преимущества.
Рекомендуется отслеживать динамику лидерборда ALE как опережающий индикатор при ребалансировке позиций в ИИ-активах: следующее обновление рейтинга способно изменить расстановку сил между OpenAI и Anthropic уже в течение ближайших недель.