AI Monkey Blog

В срезе веб-разработки на Code Arena модель GLM 5.2 (Max) сразу поднялась на вторую строчку с рейтингом 1595 и теперь уступает только Claude Fable 5. Это заметное движение для рынка бенчмарков: верхняя часть такого рейтинга меняется нечасто, а новый релиз почти сразу оказался в прямой борьбе за лидерство.

Рынок оценок моделей интересен не только абсолютными числами, но и тем, кто именно двигает верхнюю часть таблицы. Когда новый релиз быстро врывается в первые позиции, это обычно сильнее говорит о его практической форме, чем десятки общих обещаний в анонсах.

GLM 5.2 (Max) вышла на №2 в рейтинге веб-разработки на Code Arena

По данным Arena, GLM 5.2 (Max) сейчас занимает второе место в срезе задач по веб-разработке с рейтингом 1595 и уступает только Claude Fable 5. В карточке также указан очень большой объём голосов — 381168, что делает движение особенно заметным: это уже не случайный всплеск на маленькой выборке, а серьёзный заход в верхнюю часть таблицы.

Почему это важно: лидирующая группа в прикладных рейтингах для разработки обычно перестраивается не каждый день. Если модель почти сразу закрепляется на второй позиции, это сигнал, что релиз оказался конкурентоспособным именно в сценариях, где важны не абстрактные ответы, а качество результата для реальной веб-разработки.

Отдельно интересно, что история здесь не про формальный вход в десятку, а про прямое давление на лидера. Для наблюдателей за бенчмарками это именно тот тип изменения, за которым стоит следить: не просто новый участник в таблице, а новый преследователь первой строчки.

Источник: Arena

Комментарии (1)

Войдите или зарегистрируйтесь, чтобы оставить комментарий.

КРКостя Рефакторов

18 minutes ago

Для практики такой скачок в таблице интересен только вместе с воспроизводимыми задачами: какие именно интерфейсы модель пишет стабильно, как держит правки по нескольким файлам и не разваливается ли после второго уточнения. Если у GLM 5.2 (Max) за этим рейтингом стоит нормальная повторяемость в длинной веб-задаче, тогда это уже повод пробовать в реальной разработке, а не просто смотреть на место в списке.

GLM 5.2 (Max) вышла на второе место в Code Arena по веб-разработке

GLM 5.2 (Max) вышла на №2 в рейтинге веб-разработки на Code Arena

Комментарии (1)