GPT-5.5 обошёл Claude Fable 5 на новом бенчмарке ALE для ИИ-агентов

Исследовательский центр RDI Калифорнийского университета Беркли совместно с комитетом из более чем 300 экспертов запустил новый бенчмарк Agents' Last Exam (ALE) — наиболее жёсткий на сегодняшний день инструмент оценки практической эффективности ИИ-агентов в реальных профессиональных задачах с длинным горизонтом исполнения.

Сенсационным результатом стала победа GPT-5.5 от OpenAI (версия апреля 2026 года), работавшего через среду Codex: модель заняла первое место с показателем 24,0%, опередив только что выпущенный флагманский Claude Fable 5 от Anthropic класса Mythos, который занял лишь третью позицию с результатом 22,0%.

Принципиальное отличие ALE от предыдущих бенчмарков — отказ от изолированных задач по программированию в пользу оценки реального экономически значимого труда, максимально приближённого к задачам, влияющим на ВВП.

Примечательно, что даже лидирующая модель набрала лишь 24% — это означает, что самые передовые ИИ-системы в мире по-прежнему фундаментально не справляются с автономной профессиональной деятельностью.

Для инвесторов в OpenAI и Anthropic этот результат переформатирует нарратив: GPT-5.5 неожиданно восстанавливает технологическое лидерство OpenAI в сегменте агентного ИИ — именно того направления, которое аналитики считают следующим крупным источником монетизации.

Венчурные инвесторы и семейные офисы, рассматривающие pre-IPO позиции в OpenAI (оценка превышает $300 млрд) или Anthropic (последний раунд — $18,4 млрд), должны учитывать, что бенчмарки типа ALE становятся новым стандартом дью-дилидженса при оценке технологического преимущества.

Рекомендуется отслеживать динамику лидерборда ALE как опережающий индикатор при ребалансировке позиций в ИИ-активах: следующее обновление рейтинга способно изменить расстановку сил между OpenAI и Anthropic уже в течение ближайших недель.

Читать оригинал на VentureBeat ↗

←Предыдущая новость

S&P 500, Nasdaq и Dow падают на фоне угрозы войны США с Ираном

Newsroom

Все новости Result →

Следующая новость→

Anthropic призывает к регулированию ИИ по модели FAA — что ждёт рынок