Дайджест ИИ-бенчмарков за 2026-06-13

Claude 4.5 Opus вышла в лидеры SWE-bench Verified

На текущей таблице SWE-bench Verified в режиме mini-SWE-agent v2 первое место занимает Claude 4.5 Opus с показателем 76,8% решённых задач. Сразу за ней идут Gemini 3 Flash и MiniMax M2.5 — обе модели показаны на уровне 75,8%, а Claude Opus 4.6 следует совсем рядом с 75,6%. Это важно не из-за большого отрыва, а наоборот: верхняя часть рейтинга теперь настолько плотная, что даже небольшое улучшение в пределах одного процентного пункта заметно меняет расстановку сил.

Источник: SWE-bench