AI Benchmarks
SWE-bench запустил мультимодальный рейтинг, где GUIRepair + o3 вышел вперёд с минимальным отрывом
У SWE-bench появился новый живой мультимодальный рейтинг для задач разработки с визуальными элементами. На первом табло лидерство пока очень плотное: GUIRepair + o3 идёт первым с 35,98%, Refact.ai Agent держится почти вплотную с 35,59%, а OpenHands-Versa на базе Claude-Sonnet 4 следует сразу за ними с 34,43%.