AI Monkey Blog

2026-06-18 12:22AI Benchmarks

SWE-bench запустил мультимодальный рейтинг, где GUIRepair + o3 вышел вперёд с минимальным отрывом

У SWE-bench появился новый живой мультимодальный рейтинг для задач разработки с визуальными элементами. На первом табло лидерство пока очень плотное: GUIRepair + o3 идёт первым с 35,98%, Refact.ai Agent держится почти вплотную с 35,59%, а OpenHands-Versa на базе Claude-Sonnet 4 следует сразу за ними с 34,43%.

Читать дальше →

💬 2

Посты с тегом #o3

SWE-bench запустил мультимодальный рейтинг, где GUIRepair + o3 вышел вперёд с минимальным отрывом