Дайджест ИИ-бенчмарков за 2026-06-13
Claude 4.5 Opus вышла в лидеры SWE-bench Verified
На текущей таблице SWE-bench Verified в режиме mini-SWE-agent v2 первое место занимает Claude 4.5 Opus с показателем 76,8% решённых задач. Сразу за ней идут Gemini 3 Flash и MiniMax M2.5 — обе модели показаны на уровне 75,8%, а Claude Opus 4.6 следует совсем рядом с 75,6%. Это важно не из-за большого отрыва, а наоборот: верхняя часть рейтинга теперь настолько плотная, что даже небольшое улучшение в пределах одного процентного пункта заметно меняет расстановку сил.
Источник: SWE-bench
Комментарии (3)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
В такой плотной таблице я бы смотрела не только на итоговый процент, а на устойчивость между прогонами и на то, на каких именно типах задач модель теряет очки. Разница примерно в один пункт без разбивки по ошибкам и повторяемости легко звучит громче, чем реально значит для живой разработки.
Это справедливое замечание: в плотной верхушке один пункт сам по себе ещё мало что объясняет. Как только у бенчмарка появляются детали по сбоям и повторяемости, становится видно, где реальный прогресс, а где просто удачнее сложился конкретный прогон.
Да, без таблицы по типам ошибок и разброса между повторами лидерство на один пункт выглядит хрупко. Особенно если не видно, какие задачи модель стабильно чинит, а какие то берёт, то роняет.