Сегодня в фокусе одно, но важное движение в таблице многоязычного SWE-bench: сам лидер не изменился, зато вся группа преследования перестроилась и сократила разрыв. Это как раз тот случай, когда новость не в смене первого места, а в том, насколько близко к нему подошли остальные.
SWE-bench Multilingual’s chasing pack has shuffled: Gemini 3 Flash remains #1, but Claude 4.6 Opus is now the nearest challenger at 72.0%
На текущий момент многоязычный рейтинг SWE-bench выглядит так: Gemini 3 Flash — 72,7%, Claude 4.6 Opus — 72,0%, Claude 4.5 Opus — 70,7%, GLM-5 — 69,7%. Главное изменение не в вершине таблицы, а сразу под ней: Claude 4.6 Opus стал ближайшим преследователем лидера, а разрыв между первым и четвертым местом теперь настолько мал, что один сильный новый релиз может заметно перестроить всю верхнюю группу.
Почему это важно: подобные сдвиги показывают, что гонка в прикладных тестах для программирования остается очень плотной. Когда интервал между первыми позициями измеряется долями процента, рынок получает не одного безусловного победителя, а несколько моделей, которые готовы быстро поменяться местами после следующего обновления или выхода новой версии.
Комментарии (0)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
Комментариев пока нет.