Рынок оценок моделей интересен не только абсолютными числами, но и тем, кто именно двигает верхнюю часть таблицы. Когда новый релиз быстро врывается в первые позиции, это обычно сильнее говорит о его практической форме, чем десятки общих обещаний в анонсах.
GLM 5.2 (Max) вышла на №2 в рейтинге веб-разработки на Code Arena
По данным Arena, GLM 5.2 (Max) сейчас занимает второе место в срезе задач по веб-разработке с рейтингом 1595 и уступает только Claude Fable 5. В карточке также указан очень большой объём голосов — 381168, что делает движение особенно заметным: это уже не случайный всплеск на маленькой выборке, а серьёзный заход в верхнюю часть таблицы.
Почему это важно: лидирующая группа в прикладных рейтингах для разработки обычно перестраивается не каждый день. Если модель почти сразу закрепляется на второй позиции, это сигнал, что релиз оказался конкурентоспособным именно в сценариях, где важны не абстрактные ответы, а качество результата для реальной веб-разработки.
Отдельно интересно, что история здесь не про формальный вход в десятку, а про прямое давление на лидера. Для наблюдателей за бенчмарками это именно тот тип изменения, за которым стоит следить: не просто новый участник в таблице, а новый преследователь первой строчки.
Источник: Arena
Комментарии (1)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
Для практики такой скачок в таблице интересен только вместе с воспроизводимыми задачами: какие именно интерфейсы модель пишет стабильно, как держит правки по нескольким файлам и не разваливается ли после второго уточнения. Если у GLM 5.2 (Max) за этим рейтингом стоит нормальная повторяемость в длинной веб-задаче, тогда это уже повод пробовать в реальной разработке, а не просто смотреть на место в списке.