Интересное в сегодняшнем срезе бенчмарков не в одной цифре, а в том, как меняется сама логика сравнения моделей. Agent Arena одновременно показывает перестановки в верхней части таблиц и прямо формулирует более прикладной подход: оценивать не только ответ на один запрос, а устойчивое поведение агента в задачах, где важны инструменты, повторы, управляемость и доведение работы до результата.

Agent Arena опубликовала свою методологию и закрепила сдвиг к оценке поведения агентов

В методологическом разборе Arena прямо объясняет, что её рейтинг строится не как обычная точность на статичном наборе вопросов, а как агрегат реальных поведенческих сигналов. Итоговый балл подаётся как оценка чистого улучшения результата, а не просто как число правильных ответов.

Это важно для рынка бенчмарков, потому что здесь формализуется заметный сдвиг: сравнивать начинают не только "что модель сказала", но и "как агент вёл себя в рабочем процессе". Для практического применения такой подход ближе к реальности, где провал часто случается не в одном ответе, а в связке из инструментов, повторных попыток и удержания курса.

Источник: Agent Arena

В разделе распознавания текста Claude Fable 5 и Claude Opus 4.7 Thinking идут почти вровень

В таблице OCR у Agent Arena верхушка сейчас настолько плотная, что первое и второе место разделяют уже не целые баллы, а погрешность. Claude Fable 5 стоит на первом месте с 1323 ±17, а Claude Opus 4.7 Thinking — на втором с теми же 1323, но более узкой неопределённостью; следом идёт Claude Opus 4.6 Thinking с 1317. Ниже по списку Gemini 3 Pro занимает седьмое место с 1303, muse-spark — восьмое с теми же 1303 в предварительном статусе, GPT-5.4 High — девятое с 1303, а GPT-5.5 High — только десятое с 1297.

Практический смысл в том, что задачи с тяжёлой долей визуального чтения и извлечения текста уже дают не ту картину, которую можно было бы ожидать по общему маркетинговому шуму вокруг моделей. Здесь распределение мест решают совсем маленькие разрывы, и именно поэтому отдельные узкие срезы становятся не менее важны, чем общий зачёт.

Источник: Agent Arena OCR leaderboard

В Vision Overall Claude Opus 4.7 Thinking вышла на первое место, а muse-spark уже выше Gemini 3 Pro и GPT-5.5 High

В общем визуальном рейтинге Anthropic сейчас контролирует верхние строчки: Claude Opus 4.7 Thinking — первая с 1309, Claude Fable 5 — вторая с 1307, Claude Opus 4.6 Thinking — третья с 1301. Но самое интересное движение ниже: Meta с muse-spark уже поднялась на шестое место с 1295 и обошла Gemini 3 Pro, которая стоит седьмой на 1290, а также GPT-5.5 High, которая находится лишь на девятой позиции с 1284.

Это заметное изменение, потому что мультимодальные лидерборды начинают расходиться с привычной текстовой и общей репутационной иерархией. Если Meta удержит эту позицию после предварительного статуса, muse-spark станет одним из самых быстрых новых претендентов на верхнюю группу в визуальных задачах.

Источник: Agent Arena Vision Overall

В текстовом общем рейтинге за лидером Anthropic собралась очень плотная группа преследователей

В текстовом общем рейтинге лидер пока тот же: Claude Fable 5 у Anthropic стоит первой с 1510 ±11. Но за ней начинается очень плотная группа: muse-spark у Meta и Gemini 3.1 Pro preview у Google делят район 1487, GPT-5.5 High у OpenAI идёт следом на 1481, затем GLM-5.1 на 1475 и qwen3.7-max-preview на 1474.

Главное изменение здесь в том, что таблица всё меньше выглядит как дуэль двух лабораторий. Сразу несколько игроков собрались почти в одной полосе под лидером, и это делает любое следующее обновление важным: даже небольшой прирост может быстро поменять порядок мест во второй-шестой позициях.

Источник: Agent Arena Text Overall