Свежий срез по публичным бенчмаркам: Anthropic удерживает верхушку в текстовых аренах LMArena, OpenAI по-прежнему лидирует в генерации и редактировании изображений, а на SWE-bench Verified борьба идёт почти вровень между Claude, Gemini и MiniMax.

Бенчмарки ИИ: кто сейчас лидирует в LMArena и SWE-bench — 4 июня 2026 года

Ниже — свежий срез публичных бенчмарков. Это не просто список чисел: по ним видно, какие модели реально удерживают лидерство, а какие пока живут больше на громкой репутации, чем на таблицах результатов.

1) SWE-bench Verified: Claude всё ещё впереди, но разрыв небольшой

На официальной таблице SWE-bench Verified сейчас лидирует Claude 4.5 Opus (high reasoning) с 76,80% решённых задач. Совсем рядом идут Gemini 3 Flash (high reasoning) и MiniMax M2.5 (high reasoning) — у обоих 75,80%, а Claude Opus 4.6 отстаёт совсем ненамного с 75,60%. GPT-5-2 Codex держится на 5-м месте с 72,80%.

Что изменилось: верхушка стала очень плотной. Никто не уехал далеко вперёд, и это говорит о том, что в задачах на исправление кода лидеры уже бьются буквально в пределах пары процентов.

2) LMArena Text: Anthropic забрал почти весь верх

В текстовой арене LMArena сейчас сразу четыре первых места у Anthropic: claude-opus-4-6-thinking, claude-opus-4-7-thinking, claude-opus-4-6 и claude-opus-4-7. На 6-м месте стоит gemini-3.1-pro-preview, на 7-м — gemini-3-pro, а gpt-5.5-high только 8-й. gemini-3.5-flash замыкает первую десятку.

Что изменилось: несмотря на шум вокруг новых релизов, публичная текстовая таблица сейчас явно принадлежит Anthropic. Особенно заметно, что gpt-5.5-high не добрался до вершины — он в топ-10, но не в топ-5.

3) LMArena WebDev: Anthropic держит лидерство, но Qwen и Gemini уже рядом

В webdev-арене картина похожая: Claude Opus 4.7 Thinking и Claude Opus 4.7 занимают первое и второе места, а Claude Opus 4.6 Thinking — третье. На 4-м месте — qwen3.7-max-20260517, на 6-м — glm-5.1, а gemini-3.5-flash снова попадает в первую десятку, теперь уже на 10-е место.

Что изменилось: лидерство Anthropic пока не оспорено, но видно, что Qwen и GLM уже не просто статисты. Они реально закрепились рядом с верхушкой и давят на тройку лидеров.

4) LMArena Image / Image Edit: OpenAI по-прежнему №1

В генерации и редактировании изображений всё ещё сильнее всех выглядит OpenAI. В текст-к-изображению лидирует gpt-image-2 (medium) с большим отрывом, а в image edit он тоже на первом месте. Следом в обеих таблицах идут модели Google — например, gemini-3.1-flash-image-preview и gemini-3-pro-image-preview — а grok-imagine-image-quality от xAI находится ближе к верхней части списка, но не у вершины.

Что изменилось: в визуальных задачах пока нет одного нового переворота. OpenAI сохраняет первое место, а Google и xAI уже достаточно близко, чтобы считаться полноценными конкурентами, но не лидерами.

Что важно в целом

Свежий срез показывает три вещи:

Anthropic сейчас доминирует в текстовых и кодовых публичных таблицах.
OpenAI остаётся очень сильной в изображениях, но не в текстовой вершине LMArena.
Gemini 3.5 Flash уже заметен сразу в нескольких аренах, но пока не стал абсолютным лидером ни в одной из них.

Иными словами, рынок сейчас не в состоянии одной модели-победителя. Лидеры распределились по разным типам задач, и именно это сегодня и есть главная новость.

Бенчмарки ИИ: кто сейчас лидирует в LMArena и SWE-bench — 4 июня 2026 года

Бенчмарки ИИ: кто сейчас лидирует в LMArena и SWE-bench — 4 июня 2026 года

1) SWE-bench Verified: Claude всё ещё впереди, но разрыв небольшой

2) LMArena Text: Anthropic забрал почти весь верх

3) LMArena WebDev: Anthropic держит лидерство, но Qwen и Gemini уже рядом

4) LMArena Image / Image Edit: OpenAI по-прежнему №1

Что важно в целом

Похожие статьи

Комментарии (0)