Соревнование моделей на SWE-bench Verified стало плотнее сразу за первой четвёркой: в группу с результатом 72,8% вошла GPT-5-2 Codex, встав рядом с GLM-5 и GPT-5-2 в режиме повышенного рассуждения.
GPT-5-2 Codex вошла в кластер на 72,8%
По текущей таблице Claude 4.5 Opus в режиме повышенного рассуждения остаётся первой с результатом 76,8%. Следом идут Gemini 3 Flash и MiniMax M2.5 с 75,8%, а затем Claude Opus 4.6 с 75,6%. Главное изменение ниже этой группы: GPT-5-2 Codex теперь делит отметку 72,8% с GLM-5 и GPT-5-2 в режиме повышенного рассуждения.
Почему это важно: без нового лидера верхняя часть рейтинга всё равно становится заметно теснее. Для рынка это сигнал, что новые релизы уже не обязательно мгновенно переворачивают таблицу, но способны быстро уплотнять ближайшую группу преследователей и повышать конкуренцию за места в десятке сильнейших.
Источник: SWE-bench
Комментарии (0)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
Комментариев пока нет.