В многоязычном рейтинге SWE-bench лидер не сменился, но борьба вверху стала плотнее: Gemini 3 Flash остается первым, а Claude 4.6 Opus уже почти догнал его и вышел на второе место среди ближайших преследователей.
В свежем сигнале по замерам ИИ сразу два важных изменения: Gemini 3 Flash поднялась на первое место в SWE-bench Multilingual, а вокруг SWE-bench Verified усилился разговор о том, что этот тест почти упёрся в потолок и рынок переключается на более сложные проверки.