Сегодня в публичных таблицах для ИИ-моделей хорошо видно не просто очередные перестановки, а смену баланса сил сразу в нескольких направлениях: агентные сценарии, программирование и открытые модели. Ниже — главное, что изменилось и почему на это стоит смотреть внимательно.

1. Arena’s Text Coding board still belongs to Anthropic, but GLM-5.1 and qwen3.7 are now sitting in the top 12 while GPT 5.5 (High) is down at #18

В текстовых задачах по программированию у Anthropic по-прежнему первое место: claude-fable-5 набрал 1566 баллов. Но важнее движение ниже по таблице: GLM-5.1 уже поднялся на 9-е место, qwen3.7-max-preview — на 12-е, а GPT 5.5 (High) пока только на 18-м. Это важно, потому что давление на лидеров здесь сейчас идет не только от привычной пары крупных лабораторий: в верхний слой все увереннее заходят GLM и Qwen. Источник: Arena.

2. On Arena’s WebDev leaderboard, qwen3.7-max-20260517 has already climbed to the #2 lab slot, with GLM-5.1 right behind at #3

В задачах по веб-разработке на уровне лабораторий Anthropic остается первым, но сразу за ним уже стоят qwen3.7-max-20260517 и GLM-5.1 — на 2-м и 3-м местах соответственно. При этом gpt-5.5-xhigh в варианте для codex-harness находится только на 8-й позиции. Это заметный сдвиг: в агентной фронтенд-разработке самый быстрый набор веса сейчас показывают не модели OpenAI, а конкуренты из Alibaba и GLM. Источник: Arena.

3. Claude Fable 5 is now the rare cross-arena leader on Arena’s overview page, topping the Agent, Text, and WebDev snapshots at once

На обзорной странице Arena модель Claude Fable 5 одновременно занимает первое место в Agent, Text и WebDev. Для публичных таблиц это сильный сигнал широты, а не узкой специализации: модель выигрывает не только в одном виде замера, а сразу в разговорных, агентных и прикладных сценариях разработки. Если смотреть на общую форму лидера рынка, это один из самых убедительных признаков последней недели. Источник: Arena.

4. The archived Hugging Face Open LLM Leaderboard currently has calme-3.2-instruct-78b in first place, edging calme-3.1-instruct-78b by 0.79 points

Среди открытых моделей на архивной таблице Hugging Face впереди сейчас calme-3.2-instruct-78b со средним результатом 52,08%. На втором месте calme-3.1-instruct-78b с 51,29%, а отрыв между первым и вторым местом составляет всего 0,79 пункта. Это говорит о крайне плотной конкуренции в верхней части сегмента открытых весов: борьба идет уже не за большие разрывы, а за десятые доли и качество донастройки. Источник: Hugging Face.

5. GPT 5.5 (xHigh) entered Agent Arena on June 11 and is already the #2 model there

GPT 5.5 (xHigh) появился в Agent Arena 11 июня и уже занял 2-е место. Выше только Claude Fable 5, а ниже остался Claude Opus 4.8 (Thinking). Это важное движение именно по факту позиции, а не только по факту анонса: новая модель OpenAI сразу вошла в верхний эшелон таблицы по агентным задачам и быстро стала прямым участником борьбы за лидерство. Источник: Arena.

6. Claude Fable 5 debuted on June 10 and is already sitting at #1 on both Code Arena and Agent Arena

Claude Fable 5 добавили в несколько таблиц 10 июня, и на текущий момент модель уже стоит на первом месте и в Code Arena, и в Agent Arena. В Code Arena у нее 1665 баллов, а в агентном зачете она также лидирует по показанным метрикам улучшения. Это, пожалуй, самый резкий и наглядный скачок текущего цикла: новый флагман не просто вошел в таблицы, а сразу сел на вершину в двух самых заметных прикладных категориях. Источник: Arena.

7. Agent Arena went live on LMArena, adding a new benchmark focused on real-world agent behavior

Запуск Agent Arena сам по себе меняет картину публичных сравнений. Теперь модели оценивают не только по привычным предпочтениям в ответах, но и по более прикладным вещам: использованию инструментов, повторным попыткам, работе с файлами и доведению задач до результата. Поэтому многие будущие перестановки в верхней части таблиц будут значить больше для реальной практики, чем старые победы в более узких замерах. Источник: Arena.

Вывод дня простой: сейчас главный импульс в бенчмарках идет сразу по двум линиям. Первая — стремительное укрепление Claude Fable 5 как универсального лидера. Вторая — расширение круга преследователей, где GLM, Qwen и GPT 5.5 уже по-разному, но заметно меняют верхние части таблиц. Если этот темп сохранится, ближайшие недели могут принести не один локальный обмен местами, а более широкую перестройку всей верхней группы.