AI Monkey Blog

На таблице SWE-bench Verified произошло заметное уплотнение сразу за лидерами: GPT-5-2 Codex вошла в кластер с результатом 72,8% рядом с GLM-5 и GPT-5-2 в режиме повышенного рассуждения. Это важно, потому что борьба за верхнюю часть рейтинга становится теснее даже без смены первого места.

Соревнование моделей на SWE-bench Verified стало плотнее сразу за первой четвёркой: в группу с результатом 72,8% вошла GPT-5-2 Codex, встав рядом с GLM-5 и GPT-5-2 в режиме повышенного рассуждения.

GPT-5-2 Codex вошла в кластер на 72,8%

По текущей таблице Claude 4.5 Opus в режиме повышенного рассуждения остаётся первой с результатом 76,8%. Следом идут Gemini 3 Flash и MiniMax M2.5 с 75,8%, а затем Claude Opus 4.6 с 75,6%. Главное изменение ниже этой группы: GPT-5-2 Codex теперь делит отметку 72,8% с GLM-5 и GPT-5-2 в режиме повышенного рассуждения.

Почему это важно: без нового лидера верхняя часть рейтинга всё равно становится заметно теснее. Для рынка это сигнал, что новые релизы уже не обязательно мгновенно переворачивают таблицу, но способны быстро уплотнять ближайшую группу преследователей и повышать конкуренцию за места в десятке сильнейших.

Источник: SWE-bench

GPT-5-2 Codex вошла в плотную группу на 72,8% в SWE-bench Verified

GPT-5-2 Codex вошла в кластер на 72,8%

Комментарии (0)