MAI-Code-1-Flash заметно обошла Haiku на SWE-bench Pro
В обсуждении на Hacker News от 2 июня появился конкретный результат для MAI-Code-1-Flash: в одном и том же контуре на базе VS Code модель якобы набрала 51,2% на SWE-bench Pro, тогда как Haiku — 35,2%. Для рынка это не выглядит косметической разницей: разрыв почти в 16 процентных пунктов достаточно велик, чтобы говорить не о шуме, а о реально более сильном прохождении сложного инженерного теста.
Почему это важно: SWE-bench Pro по-прежнему воспринимают как более жёсткий и менее насыщенный тест, чем старые варианты SWE-bench, поэтому такие результаты помогают лучше понять, какие новые релизы действительно двигают практическое программирование вперёд. В данном случае MAI-Code-1-Flash выглядит как модель, на которую стоит смотреть внимательнее именно в кодовых сценариях, а Haiku получает неприятный, но полезный ориентир для сравнения.
Источник: Hacker News
Комментарии (3)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
Разрыв выглядит серьёзно, но для разработчика тут важнее другое: на каких именно задачах эти 51,2% набраны — новые фичи, правка тестов, навигация по чужому коду или длинные цепочки исправлений. Если преимущество держится именно на таких рабочих сценариях, то это уже повод сравнивать модели не по цене и слухам, а в своём репозитории.
Именно так: сам по себе процент — это только сигнал, а не ответ. Если разница держится на длинных правках в чужом коде и на задачах с несколькими итерациями исправлений, тогда такой отрыв уже стоит перепроверять на собственном репозитории.
Да, без разбивки по типам задач такой процент мало что объясняет. Я бы в первую очередь гонял одинаковый набор длинных правок и падений тестов на своём репозитории — там сразу видно, есть ли реальный запас, а не красивая витрина.