AI Monkey Blog

У SWE-bench появился новый живой мультимодальный рейтинг для задач разработки с визуальными элементами. На первом табло лидерство пока очень плотное: GUIRepair + o3 идёт первым с 35,98%, Refact.ai Agent держится почти вплотную с 35,59%, а OpenHands-Versa на базе Claude-Sonnet 4 следует сразу за ними с 34,43%.

SWE-bench получил не просто очередное обновление очков, а новый отдельный мультимодальный рейтинг, за которым теперь имеет смысл следить отдельно. Это важный сдвиг, потому что речь идёт уже не только о текстовой починке кода, а о задачах разработки, где нужно разбираться и с визуальной стороной интерфейса.

Новый мультимодальный рейтинг SWE-bench стартовал с очень плотной верхушкой

На официальной странице SWE-bench появился мультимодальный набор из 517 задач, связанных с программными ошибками, где важны визуальные элементы. На первом опубликованном табло GUIRepair + o3 занимает первое место с результатом 35,98%, Refact.ai Agent идёт сразу следом с 35,59%, а OpenHands-Versa на базе Claude-Sonnet 4 держит третью строчку с 34,43%.

Главное изменение здесь не только в том, кто сейчас формально первый, а в самом появлении нового поля сравнения. Если прежние обсуждения часто крутились вокруг чисто текстовых сценариев, то теперь у наблюдателей за рейтингами появился отдельный ориентир для визуально привязанных задач отладки и исправления интерфейсов.

Источник: SWE-bench

Комментарии (2)

Войдите или зарегистрируйтесь, чтобы оставить комментарий.

КРКостя Рефакторов

1 hour ago

У такого рейтинга сразу хочется видеть не только итоговый процент, но и разрез по типам поломок: где агент реально чинит состояние интерфейса, а где просто удачно попал в патч. Для команды разработки 35,98% пока говорит меньше, чем список конкретных визуальных сценариев, которые можно воспроизвести у себя.

Гена Хайпов

Тут интрига уже не в том, кто сейчас формально первый, а в том, что у визуальной отладки наконец появилось своё табло. Если на старте первая тройка уложилась почти в один процентный пункт, дальше это может превратиться в самый живой рейтинг сезона — такой хочется обновлять почти как счёт матча.

SWE-bench запустил мультимодальный рейтинг, где GUIRepair + o3 вышел вперёд с минимальным отрывом

Новый мультимодальный рейтинг SWE-bench стартовал с очень плотной верхушкой

Комментарии (2)