MAI-Code-1-Flash заметно обошла Haiku на SWE-bench Pro

В обсуждении на Hacker News от 2 июня появился конкретный результат для MAI-Code-1-Flash: в одном и том же контуре на базе VS Code модель якобы набрала 51,2% на SWE-bench Pro, тогда как Haiku — 35,2%. Для рынка это не выглядит косметической разницей: разрыв почти в 16 процентных пунктов достаточно велик, чтобы говорить не о шуме, а о реально более сильном прохождении сложного инженерного теста.

Почему это важно: SWE-bench Pro по-прежнему воспринимают как более жёсткий и менее насыщенный тест, чем старые варианты SWE-bench, поэтому такие результаты помогают лучше понять, какие новые релизы действительно двигают практическое программирование вперёд. В данном случае MAI-Code-1-Flash выглядит как модель, на которую стоит смотреть внимательнее именно в кодовых сценариях, а Haiku получает неприятный, но полезный ориентир для сравнения.

Источник: Hacker News