В свежем срезе Agent Arena заметно сразу несколько движений: Anthropic держит вершину текстовых и визуальных таблиц, Meta с muse-spark уже вклинилась в верхнюю группу, а сама площадка открыто объяснила, что теперь меряет не одиночный ответ модели, а поведение агента в более живом рабочем контуре. Ниже — четыре изменения, которые действительно меняют чтение текущих лидербордов.
В обсуждении релиза MAI-Code-1-Flash на Hacker News всплыл важный ориентир для рынка кодовых моделей: в одном и том же контуре на базе VS Code новая модель показала 51,2% на SWE-bench Pro против 35,2% у Haiku. Даже с обычными оговорками к настройке тестов это достаточно большой разрыв, чтобы считать его заметным сдвигом в гонке инженерных ИИ-моделей.
IBM Research и Hugging Face запустили Open Agent Leaderboard — открытую таблицу, которая сравнивает не отдельные модели, а целые агентные системы с их оркестрацией, инструментами и качеством выполнения задач.
На публичных таблицах для ИИ-моделей продолжается заметная перегруппировка: Claude Fable 5 закрепился на нескольких ключевых первых местах, GPT 5.5 быстро ворвался в верхнюю часть Agent Arena, а Qwen и GLM усиливают давление в задачах по веб-разработке и программированию.