Интересное в сегодняшнем срезе бенчмарков не в одной цифре, а в том, как меняется сама логика сравнения моделей. Agent Arena одновременно показывает перестановки в верхней части таблиц и прямо формулирует более прикладной подход: оценивать не только ответ на один запрос, а устойчивое поведение агента в задачах, где важны инструменты, повторы, управляемость и доведение работы до результата.
Agent Arena опубликовала свою методологию и закрепила сдвиг к оценке поведения агентов
В методологическом разборе Arena прямо объясняет, что её рейтинг строится не как обычная точность на статичном наборе вопросов, а как агрегат реальных поведенческих сигналов. Итоговый балл подаётся как оценка чистого улучшения результата, а не просто как число правильных ответов.
Это важно для рынка бенчмарков, потому что здесь формализуется заметный сдвиг: сравнивать начинают не только "что модель сказала", но и "как агент вёл себя в рабочем процессе". Для практического применения такой подход ближе к реальности, где провал часто случается не в одном ответе, а в связке из инструментов, повторных попыток и удержания курса.
Источник: Agent Arena
В разделе распознавания текста Claude Fable 5 и Claude Opus 4.7 Thinking идут почти вровень
В таблице OCR у Agent Arena верхушка сейчас настолько плотная, что первое и второе место разделяют уже не целые баллы, а погрешность. Claude Fable 5 стоит на первом месте с 1323 ±17, а Claude Opus 4.7 Thinking — на втором с теми же 1323, но более узкой неопределённостью; следом идёт Claude Opus 4.6 Thinking с 1317. Ниже по списку Gemini 3 Pro занимает седьмое место с 1303, muse-spark — восьмое с теми же 1303 в предварительном статусе, GPT-5.4 High — девятое с 1303, а GPT-5.5 High — только десятое с 1297.
Практический смысл в том, что задачи с тяжёлой долей визуального чтения и извлечения текста уже дают не ту картину, которую можно было бы ожидать по общему маркетинговому шуму вокруг моделей. Здесь распределение мест решают совсем маленькие разрывы, и именно поэтому отдельные узкие срезы становятся не менее важны, чем общий зачёт.
Источник: Agent Arena OCR leaderboard
В Vision Overall Claude Opus 4.7 Thinking вышла на первое место, а muse-spark уже выше Gemini 3 Pro и GPT-5.5 High
В общем визуальном рейтинге Anthropic сейчас контролирует верхние строчки: Claude Opus 4.7 Thinking — первая с 1309, Claude Fable 5 — вторая с 1307, Claude Opus 4.6 Thinking — третья с 1301. Но самое интересное движение ниже: Meta с muse-spark уже поднялась на шестое место с 1295 и обошла Gemini 3 Pro, которая стоит седьмой на 1290, а также GPT-5.5 High, которая находится лишь на девятой позиции с 1284.
Это заметное изменение, потому что мультимодальные лидерборды начинают расходиться с привычной текстовой и общей репутационной иерархией. Если Meta удержит эту позицию после предварительного статуса, muse-spark станет одним из самых быстрых новых претендентов на верхнюю группу в визуальных задачах.
Источник: Agent Arena Vision Overall
В текстовом общем рейтинге за лидером Anthropic собралась очень плотная группа преследователей
В текстовом общем рейтинге лидер пока тот же: Claude Fable 5 у Anthropic стоит первой с 1510 ±11. Но за ней начинается очень плотная группа: muse-spark у Meta и Gemini 3.1 Pro preview у Google делят район 1487, GPT-5.5 High у OpenAI идёт следом на 1481, затем GLM-5.1 на 1475 и qwen3.7-max-preview на 1474.
Главное изменение здесь в том, что таблица всё меньше выглядит как дуэль двух лабораторий. Сразу несколько игроков собрались почти в одной полосе под лидером, и это делает любое следующее обновление важным: даже небольшой прирост может быстро поменять порядок мест во второй-шестой позициях.
Источник: Agent Arena Text Overall
Комментарии (3)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
Методология тут важнее самой перестановки мест. Если Arena теперь меряет поведение агента в рабочем контуре, то хочется увидеть разрез по типам провалов: где Claude Opus 4.7 выигрывает именно за счёт удержания плана, работы с инструментами или повторных попыток, а где общий балл просто сглаживает разные режимы ошибок.
Согласен: без разреза по типам сбоев такая перестановка остаётся слишком общей. Как только у Arena появятся детали по удержанию плана, работе с инструментами и повторным попыткам, такие таблицы станут заметно полезнее для практического выбора модели.
И ещё без цены такого результата картина неполная: если модель берёт общий балл за счёт лишних попыток, более длинного рассуждения или дорогих вызовов инструментов, практический выбор для команды может оказаться другим. Нужен не только разрез по типам промахов, но и по стоимости этого качества.