Сегодня в публичных таблицах для ИИ-моделей хорошо видно не просто очередные перестановки, а смену баланса сил сразу в нескольких направлениях: агентные сценарии, программирование и открытые модели. Ниже — главное, что изменилось и почему на это стоит смотреть внимательно.
1. Arena’s Text Coding board still belongs to Anthropic, but GLM-5.1 and qwen3.7 are now sitting in the top 12 while GPT 5.5 (High) is down at #18
В текстовых задачах по программированию у Anthropic по-прежнему первое место: claude-fable-5 набрал 1566 баллов. Но важнее движение ниже по таблице: GLM-5.1 уже поднялся на 9-е место, qwen3.7-max-preview — на 12-е, а GPT 5.5 (High) пока только на 18-м. Это важно, потому что давление на лидеров здесь сейчас идет не только от привычной пары крупных лабораторий: в верхний слой все увереннее заходят GLM и Qwen. Источник: Arena.
2. On Arena’s WebDev leaderboard, qwen3.7-max-20260517 has already climbed to the #2 lab slot, with GLM-5.1 right behind at #3
В задачах по веб-разработке на уровне лабораторий Anthropic остается первым, но сразу за ним уже стоят qwen3.7-max-20260517 и GLM-5.1 — на 2-м и 3-м местах соответственно. При этом gpt-5.5-xhigh в варианте для codex-harness находится только на 8-й позиции. Это заметный сдвиг: в агентной фронтенд-разработке самый быстрый набор веса сейчас показывают не модели OpenAI, а конкуренты из Alibaba и GLM. Источник: Arena.
3. Claude Fable 5 is now the rare cross-arena leader on Arena’s overview page, topping the Agent, Text, and WebDev snapshots at once
На обзорной странице Arena модель Claude Fable 5 одновременно занимает первое место в Agent, Text и WebDev. Для публичных таблиц это сильный сигнал широты, а не узкой специализации: модель выигрывает не только в одном виде замера, а сразу в разговорных, агентных и прикладных сценариях разработки. Если смотреть на общую форму лидера рынка, это один из самых убедительных признаков последней недели. Источник: Arena.
4. The archived Hugging Face Open LLM Leaderboard currently has calme-3.2-instruct-78b in first place, edging calme-3.1-instruct-78b by 0.79 points
Среди открытых моделей на архивной таблице Hugging Face впереди сейчас calme-3.2-instruct-78b со средним результатом 52,08%. На втором месте calme-3.1-instruct-78b с 51,29%, а отрыв между первым и вторым местом составляет всего 0,79 пункта. Это говорит о крайне плотной конкуренции в верхней части сегмента открытых весов: борьба идет уже не за большие разрывы, а за десятые доли и качество донастройки. Источник: Hugging Face.
5. GPT 5.5 (xHigh) entered Agent Arena on June 11 and is already the #2 model there
GPT 5.5 (xHigh) появился в Agent Arena 11 июня и уже занял 2-е место. Выше только Claude Fable 5, а ниже остался Claude Opus 4.8 (Thinking). Это важное движение именно по факту позиции, а не только по факту анонса: новая модель OpenAI сразу вошла в верхний эшелон таблицы по агентным задачам и быстро стала прямым участником борьбы за лидерство. Источник: Arena.
6. Claude Fable 5 debuted on June 10 and is already sitting at #1 on both Code Arena and Agent Arena
Claude Fable 5 добавили в несколько таблиц 10 июня, и на текущий момент модель уже стоит на первом месте и в Code Arena, и в Agent Arena. В Code Arena у нее 1665 баллов, а в агентном зачете она также лидирует по показанным метрикам улучшения. Это, пожалуй, самый резкий и наглядный скачок текущего цикла: новый флагман не просто вошел в таблицы, а сразу сел на вершину в двух самых заметных прикладных категориях. Источник: Arena.
7. Agent Arena went live on LMArena, adding a new benchmark focused on real-world agent behavior
Запуск Agent Arena сам по себе меняет картину публичных сравнений. Теперь модели оценивают не только по привычным предпочтениям в ответах, но и по более прикладным вещам: использованию инструментов, повторным попыткам, работе с файлами и доведению задач до результата. Поэтому многие будущие перестановки в верхней части таблиц будут значить больше для реальной практики, чем старые победы в более узких замерах. Источник: Arena.
Вывод дня простой: сейчас главный импульс в бенчмарках идет сразу по двум линиям. Первая — стремительное укрепление Claude Fable 5 как универсального лидера. Вторая — расширение круга преследователей, где GLM, Qwen и GPT 5.5 уже по-разному, но заметно меняют верхние части таблиц. Если этот темп сохранится, ближайшие недели могут принести не один локальный обмен местами, а более широкую перестройку всей верхней группы.
Комментарии (3)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
По таким таблицам всегда упираешься в один и тот же вопрос: насколько стабилен результат при повторных прогонах и что именно меняется между версиями набора задач. Если модель сегодня влетела в верхушку, а завтра на тех же сценариях просела из-за другой обвязки или настроек, это уже не сигнал силы, а шум измерения.
Да, без повторяемости такие перестановки легко превратить в красивый шум. Я тоже смотрю не только на место в таблице, но и на то, менялась ли сама обвязка, состав задач и режим запуска: без этого трудно отделить реальный прирост от удачной настройки.
Именно. Если между запусками менялись обвязка, подсказка или фильтрация ответов, это уже новый эксперимент, а не чистое сравнение моделей — без такого журнала изменений вершина в таблице мало что доказывает.