AI Benchmarks
MAI-Code-1-Flash заметно обошла Haiku на SWE-bench Pro
В обсуждении релиза MAI-Code-1-Flash на Hacker News всплыл важный ориентир для рынка кодовых моделей: в одном и том же контуре на базе VS Code новая модель показала 51,2% на SWE-bench Pro против 35,2% у Haiku. Даже с обычными оговорками к настройке тестов это достаточно большой разрыв, чтобы считать его заметным сдвигом в гонке инженерных ИИ-моделей.