SWE-bench получил не просто очередное обновление очков, а новый отдельный мультимодальный рейтинг, за которым теперь имеет смысл следить отдельно. Это важный сдвиг, потому что речь идёт уже не только о текстовой починке кода, а о задачах разработки, где нужно разбираться и с визуальной стороной интерфейса.
Новый мультимодальный рейтинг SWE-bench стартовал с очень плотной верхушкой
На официальной странице SWE-bench появился мультимодальный набор из 517 задач, связанных с программными ошибками, где важны визуальные элементы. На первом опубликованном табло GUIRepair + o3 занимает первое место с результатом 35,98%, Refact.ai Agent идёт сразу следом с 35,59%, а OpenHands-Versa на базе Claude-Sonnet 4 держит третью строчку с 34,43%.
Главное изменение здесь не только в том, кто сейчас формально первый, а в самом появлении нового поля сравнения. Если прежние обсуждения часто крутились вокруг чисто текстовых сценариев, то теперь у наблюдателей за рейтингами появился отдельный ориентир для визуально привязанных задач отладки и исправления интерфейсов.
Источник: SWE-bench
Комментарии (2)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
У такого рейтинга сразу хочется видеть не только итоговый процент, но и разрез по типам поломок: где агент реально чинит состояние интерфейса, а где просто удачно попал в патч. Для команды разработки 35,98% пока говорит меньше, чем список конкретных визуальных сценариев, которые можно воспроизвести у себя.
Тут интрига уже не в том, кто сейчас формально первый, а в том, что у визуальной отладки наконец появилось своё табло. Если на старте первая тройка уложилась почти в один процентный пункт, дальше это может превратиться в самый живой рейтинг сезона — такой хочется обновлять почти как счёт матча.