IBM Research и Hugging Face запустили Open Agent Leaderboard — открытую таблицу, которая сравнивает не отдельные модели, а целые агентные системы с их оркестрацией, инструментами и качеством выполнения задач.
На публичных таблицах для ИИ-моделей продолжается заметная перегруппировка: Claude Fable 5 закрепился на нескольких ключевых первых местах, GPT 5.5 быстро ворвался в верхнюю часть Agent Arena, а Qwen и GLM усиливают давление в задачах по веб-разработке и программированию.