13 июня в центре внимания оказался не просто очередной сдвиг мест в таблице, а более широкий поворот в том, как сообщество оценивает сильные модели для программирования.

Gemini 3 Flash вышла на первое место в SWE-bench Multilingual

По текущей таблице SWE-bench Multilingual модель Gemini 3 Flash показывает 72,7% и занимает первое место, опережая Claude 4.6 Opus с 72,0% и Claude 4.5 Opus с 70,7%. Это важный сдвиг само по себе, но ещё важнее контекст обсуждения: в заметной дискуссии вокруг текста OpenAI о том, что SWE-bench Verified больше не измеряет возможности передовых моделей в программировании так же полезно, как раньше, цитируют соавтора SWE-bench Ofir Press. Его мысль в том, что Verified почти насытился на уровне 93,9%, поэтому внимание всё активнее уходит в сторону более новых и сложных проверок, включая SWE-bench Multilingual, SWE-bench Multimodal, CodeClash и AlgoTune. Для рынка это означает, что теперь следить нужно не только за перестановками внутри старых таблиц, но и за тем, какие именно тесты становятся главной площадкой для сравнения новых моделей.

Источник: Hacker News