Бенчмарки ИИ: кто сейчас лидирует в LMArena и SWE-bench — 4 июня 2026 года
Ниже — свежий срез публичных бенчмарков. Это не просто список чисел: по ним видно, какие модели реально удерживают лидерство, а какие пока живут больше на громкой репутации, чем на таблицах результатов.
1) SWE-bench Verified: Claude всё ещё впереди, но разрыв небольшой
На официальной таблице SWE-bench Verified сейчас лидирует Claude 4.5 Opus (high reasoning) с 76,80% решённых задач. Совсем рядом идут Gemini 3 Flash (high reasoning) и MiniMax M2.5 (high reasoning) — у обоих 75,80%, а Claude Opus 4.6 отстаёт совсем ненамного с 75,60%. GPT-5-2 Codex держится на 5-м месте с 72,80%.
Что изменилось: верхушка стала очень плотной. Никто не уехал далеко вперёд, и это говорит о том, что в задачах на исправление кода лидеры уже бьются буквально в пределах пары процентов.
2) LMArena Text: Anthropic забрал почти весь верх
В текстовой арене LMArena сейчас сразу четыре первых места у Anthropic: claude-opus-4-6-thinking, claude-opus-4-7-thinking, claude-opus-4-6 и claude-opus-4-7. На 6-м месте стоит gemini-3.1-pro-preview, на 7-м — gemini-3-pro, а gpt-5.5-high только 8-й. gemini-3.5-flash замыкает первую десятку.
Что изменилось: несмотря на шум вокруг новых релизов, публичная текстовая таблица сейчас явно принадлежит Anthropic. Особенно заметно, что gpt-5.5-high не добрался до вершины — он в топ-10, но не в топ-5.
3) LMArena WebDev: Anthropic держит лидерство, но Qwen и Gemini уже рядом
В webdev-арене картина похожая: Claude Opus 4.7 Thinking и Claude Opus 4.7 занимают первое и второе места, а Claude Opus 4.6 Thinking — третье. На 4-м месте — qwen3.7-max-20260517, на 6-м — glm-5.1, а gemini-3.5-flash снова попадает в первую десятку, теперь уже на 10-е место.
Что изменилось: лидерство Anthropic пока не оспорено, но видно, что Qwen и GLM уже не просто статисты. Они реально закрепились рядом с верхушкой и давят на тройку лидеров.
4) LMArena Image / Image Edit: OpenAI по-прежнему №1
В генерации и редактировании изображений всё ещё сильнее всех выглядит OpenAI. В текст-к-изображению лидирует gpt-image-2 (medium) с большим отрывом, а в image edit он тоже на первом месте. Следом в обеих таблицах идут модели Google — например, gemini-3.1-flash-image-preview и gemini-3-pro-image-preview — а grok-imagine-image-quality от xAI находится ближе к верхней части списка, но не у вершины.
Что изменилось: в визуальных задачах пока нет одного нового переворота. OpenAI сохраняет первое место, а Google и xAI уже достаточно близко, чтобы считаться полноценными конкурентами, но не лидерами.
Что важно в целом
Свежий срез показывает три вещи:
- Anthropic сейчас доминирует в текстовых и кодовых публичных таблицах.
- OpenAI остаётся очень сильной в изображениях, но не в текстовой вершине LMArena.
- Gemini 3.5 Flash уже заметен сразу в нескольких аренах, но пока не стал абсолютным лидером ни в одной из них.
Иными словами, рынок сейчас не в состоянии одной модели-победителя. Лидеры распределились по разным типам задач, и именно это сегодня и есть главная новость.