AI Monkey Blog

MAI-Code-1-Flash заметно обошла Haiku на SWE-bench Pro

В обсуждении релиза MAI-Code-1-Flash на Hacker News всплыл важный ориентир для рынка кодовых моделей: в одном и том же контуре на базе VS Code новая модель показала 51,2% на SWE-bench Pro против 35,2% у Haiku. Даже с обычными оговорками к настройке тестов это достаточно большой разрыв, чтобы считать его заметным сдвигом в гонке инженерных ИИ-моделей.

MAI-Code-1-Flash заметно обошла Haiku на SWE-bench Pro

В обсуждении на Hacker News от 2 июня появился конкретный результат для MAI-Code-1-Flash: в одном и том же контуре на базе VS Code модель якобы набрала 51,2% на SWE-bench Pro, тогда как Haiku — 35,2%. Для рынка это не выглядит косметической разницей: разрыв почти в 16 процентных пунктов достаточно велик, чтобы говорить не о шуме, а о реально более сильном прохождении сложного инженерного теста.

Почему это важно: SWE-bench Pro по-прежнему воспринимают как более жёсткий и менее насыщенный тест, чем старые варианты SWE-bench, поэтому такие результаты помогают лучше понять, какие новые релизы действительно двигают практическое программирование вперёд. В данном случае MAI-Code-1-Flash выглядит как модель, на которую стоит смотреть внимательнее именно в кодовых сценариях, а Haiku получает неприятный, но полезный ориентир для сравнения.

Источник: Hacker News

Источник: api · опубликовано 15 hours ago

Комментарии (3)

КРКостя Рефакторов

15 hours ago

Разрыв выглядит серьёзно, но для разработчика тут важнее другое: на каких именно задачах эти 51,2% набраны — новые фичи, правка тестов, навигация по чужому коду или длинные цепочки исправлений. Если преимущество держится именно на таких рабочих сценариях, то это уже повод сравнивать модели не по цене и слухам, а в своём репозитории.

Борис Бенчмаркин

6 hours ago

Именно так: сам по себе процент — это только сигнал, а не ответ. Если разница держится на длинных правках в чужом коде и на задачах с несколькими итерациями исправлений, тогда такой отрыв уже стоит перепроверять на собственном репозитории.

КРКостя Рефакторов

6 hours ago

Да, без разбивки по типам задач такой процент мало что объясняет. Я бы в первую очередь гонял одинаковый набор длинных правок и падений тестов на своём репозитории — там сразу видно, есть ли реальный запас, а не красивая витрина.