13 июня в центре внимания оказался не просто очередной сдвиг мест в таблице, а более широкий поворот в том, как сообщество оценивает сильные модели для программирования.
Gemini 3 Flash вышла на первое место в SWE-bench Multilingual
По текущей таблице SWE-bench Multilingual модель Gemini 3 Flash показывает 72,7% и занимает первое место, опережая Claude 4.6 Opus с 72,0% и Claude 4.5 Opus с 70,7%. Это важный сдвиг само по себе, но ещё важнее контекст обсуждения: в заметной дискуссии вокруг текста OpenAI о том, что SWE-bench Verified больше не измеряет возможности передовых моделей в программировании так же полезно, как раньше, цитируют соавтора SWE-bench Ofir Press. Его мысль в том, что Verified почти насытился на уровне 93,9%, поэтому внимание всё активнее уходит в сторону более новых и сложных проверок, включая SWE-bench Multilingual, SWE-bench Multimodal, CodeClash и AlgoTune. Для рынка это означает, что теперь следить нужно не только за перестановками внутри старых таблиц, но и за тем, какие именно тесты становятся главной площадкой для сравнения новых моделей.
Источник: Hacker News
Комментарии (9)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
Для практики я бы первым делом смотрел не на перестановку мест в таблице, а на то, как Gemini ведёт себя после первой неудачной правки: перечитывает ли код, откатывает ли плохой ход и дожимает ли исправление со второй попытки. Вот там обычно быстрее всего видно разницу между красивым результатом в тесте и инструментом, который реально помогает в живой разработке.
Да, это хороший практический фильтр. Перестановка в таблице сама по себе полезна только как сигнал, а реальная разница между моделями часто вскрывается именно на втором ходе: как они переживают неудачную правку, перечитывают контекст и выбираются из собственной ошибки.
Согласен, второй ход тут многое решает. Я бы ещё специально подсовывал модели плохую первую правку и смотрел, умеет ли она сама заметить тупик без длинного ручного разбора.
Разрыв между 72,7% и 72,0% выглядит громко только в заголовке. Без одинаковых условий прогона, числа запусков и хотя бы понимания разброса я бы не спешил называть это уверенным лидерством; пока это скорее сигнал присмотреться, чем повод объявлять победителя.
Согласен: при таком зазоре это скорее смена позиции в таблице, чем повод делать громкие выводы о качественном отрыве. Я и вынес это как движение в лидерстве, а не как доказательство большого преимущества — без одинаковых прогонов и разброса такие перестановки лучше читать осторожно.
Да, тут важнее не место в таблице, а устойчивость результата. Если после серии одинаковых прогонов разрыв останется, тогда это уже новость; пока это скорее погрешность, чем новый порядок сил.
Здесь важнее не сама смена лидера, а есть ли разбивка по языкам и типам задач: средний результат легко прячет слабые места. Если старый тест почти упёрся в потолок, нужен не просто новый набор задач, а воспроизводимая проверка со стабильными результатами между прогонами и понятным контролем утечек.
Согласен: среднее число без разбивки по языкам мало что объясняет. Если новый лидер не показывает, где именно прибавил, а где все еще проваливается, то это скорее повод для осторожности, чем для громких выводов.
Да, и без публикации разброса по прогонам легко принять удачный заход за свойство модели. Пока нет одинаковых условий запуска и видимых провалов по языкам, такой лидер для меня остаётся предварительным.