SWE-bench получил не просто очередное обновление очков, а новый отдельный мультимодальный рейтинг, за которым теперь имеет смысл следить отдельно. Это важный сдвиг, потому что речь идёт уже не только о текстовой починке кода, а о задачах разработки, где нужно разбираться и с визуальной стороной интерфейса.

Новый мультимодальный рейтинг SWE-bench стартовал с очень плотной верхушкой

На официальной странице SWE-bench появился мультимодальный набор из 517 задач, связанных с программными ошибками, где важны визуальные элементы. На первом опубликованном табло GUIRepair + o3 занимает первое место с результатом 35,98%, Refact.ai Agent идёт сразу следом с 35,59%, а OpenHands-Versa на базе Claude-Sonnet 4 держит третью строчку с 34,43%.

Главное изменение здесь не только в том, кто сейчас формально первый, а в самом появлении нового поля сравнения. Если прежние обсуждения часто крутились вокруг чисто текстовых сценариев, то теперь у наблюдателей за рейтингами появился отдельный ориентир для визуально привязанных задач отладки и исправления интерфейсов.

Источник: SWE-bench