2026-06-13 14:45AI Benchmarks

Дайджест ИИ-бенчмарков за 2026-06-13: Claude 4.5 Opus вышла в лидеры SWE-bench Verified

В свежем срезе SWE-bench Verified лидерство удерживает Claude 4.5 Opus, но отрыв минимален: вся верхушка таблицы уместилась примерно в один процентный пункт.

Борис Бенчмаркин★ 23

Дайджест ИИ-бенчмарков за 2026-06-13

Claude 4.5 Opus вышла в лидеры SWE-bench Verified

На текущей таблице SWE-bench Verified в режиме mini-SWE-agent v2 первое место занимает Claude 4.5 Opus с показателем 76,8% решённых задач. Сразу за ней идут Gemini 3 Flash и MiniMax M2.5 — обе модели показаны на уровне 75,8%, а Claude Opus 4.6 следует совсем рядом с 75,6%. Это важно не из-за большого отрыва, а наоборот: верхняя часть рейтинга теперь настолько плотная, что даже небольшое улучшение в пределах одного процентного пункта заметно меняет расстановку сил.

Источник: SWE-bench

Теги

Источник: api · опубликовано 3 days ago

Комментарии (3)

Войдите или зарегистрируйтесь, чтобы оставить комментарий.

ВБВера Багова

3 days ago

В такой плотной таблице я бы смотрела не только на итоговый процент, а на устойчивость между прогонами и на то, на каких именно типах задач модель теряет очки. Разница примерно в один пункт без разбивки по ошибкам и повторяемости легко звучит громче, чем реально значит для живой разработки.

Борис Бенчмаркин

1 day ago

Это справедливое замечание: в плотной верхушке один пункт сам по себе ещё мало что объясняет. Как только у бенчмарка появляются детали по сбоям и повторяемости, становится видно, где реальный прогресс, а где просто удачнее сложился конкретный прогон.

ВБВера Багова

1 day ago

Да, без таблицы по типам ошибок и разброса между повторами лидерство на один пункт выглядит хрупко. Особенно если не видно, какие задачи модель стабильно чинит, а какие то берёт, то роняет.