AI Monkey Blog

В свежих бенчмарках и таблицах лидеров за день заметны сразу несколько сдвигов: Claude Sonnet 4.5 стартовала первой в новом CodeClash, Dreamina Seedance 2.0 лидирует в редактировании видео, в преобразовании изображения в видео наверху почти ничья между Gemini Omni Flash и Dreamina, а в редактировании изображений заметный отрыв показала gpt-image-2.

Ниже — главные подвижки в свежих рейтингах моделей и прикладных бенчмарках. На этот раз интереснее всего не просто абсолютные первые места, а то, где уже видна плотная борьба, а где, наоборот, появился явный лидер.

CodeClash: Claude Sonnet 4.5 сразу открыла новый рейтинг на первом месте

CodeClash — это новый бенчмарк для целевой программной инженерии, где оценивают не разовый ответ на задачу, а работу по нескольким итерациям внутри реальной кодовой базы. На старте таблицы Claude Sonnet 4.5 получила 1385 Elo, GPT-5 — 1366, o3 — 1343. Дальше уже заметный разрыв: у Claude Sonnet 4 — 1224, у GPT-5 Mini — 1199.

Почему это важно: рынок явно продолжает уходить от узких тестов на один патч к проверке более длинного инженерного цикла. Если CodeClash закрепится, он может стать полезным дополнением к SWE-bench и похожим проверкам, потому что лучше отражает реальную работу агента в проекте.

Источник: CodeClash

Dreamina Seedance 2.0 вышла на первое место в отдельном рейтинге по редактированию видео

В специализированной таблице Arena по редактированию видео сейчас всего шесть моделей, но распределение уже выглядит показательным. dreamina-seedance-2.0-720p стоит первой с результатом 1379, за ней happyhorse-1.0 с 1319. Ниже начинается более серьёзный спад: у Grok Imagine Video — 1265, а версии Kling расположены ещё ниже.

Почему это важно: это не просто ещё одна победа в генерации видео, а сильная позиция именно в задаче редактирования. Такой срез показывает, какие модели лучше справляются не с созданием ролика с нуля, а с управляемым изменением уже заданного материала.

Источник: Arena Video Edit

В преобразовании изображения в видео наверху почти ничья между Gemini Omni Flash и Dreamina Seedance 2.0

В рейтинге Arena для преобразования изображения в видео сложилась очень плотная верхушка. Gemini Omni Flash и Dreamina Seedance 2.0-720p делят первое место с одинаковым результатом 1475, а Grok Imagine Video 1.5 Preview идёт совсем рядом с 1467. Дальше в таблице уже заметен отрыв: happyhorse-1.0 получила 1446, а варианты Veo находятся ниже.

Почему это важно: на этом направлении пока не видно одного безусловного победителя. Вместо этого формируется полноценная гонка как минимум между двумя моделями, а преследователи остаются на дистанции удара. Для рынка это обычно означает более быстрые обновления и более резкие перестановки в ближайшие недели.

Источник: Arena Image-to-Video

gpt-image-2 заметно оторвалась в рейтинге редактирования изображений

В таблице Arena по редактированию одного изображения сейчас на первом месте gpt-image-2 в среднем режиме с результатом 1465. На второй строчке mai-image-2.5 с 1401, то есть разрыв уже довольно крупный. Ниже идёт плотная группа преследователей: ChatGPT Image, Grok Imagine Image Quality и варианты Gemini nano-banana держатся примерно в диапазоне 1385–1390.

Почему это важно: здесь картина уже не похожа на плотную ничью. Пока что это выглядит как реальное лидерство OpenAI именно в задаче редактирования изображений, а не просто очередная перестановка внутри шумной группы моделей с почти одинаковыми оценками.

Источник: Arena Image Edit

Claude Sonnet 4.5 возглавила новый рейтинг CodeClash по инженерии ПО

CodeClash: Claude Sonnet 4.5 сразу открыла новый рейтинг на первом месте

Dreamina Seedance 2.0 вышла на первое место в отдельном рейтинге по редактированию видео

В преобразовании изображения в видео наверху почти ничья между Gemini Omni Flash и Dreamina Seedance 2.0

gpt-image-2 заметно оторвалась в рейтинге редактирования изображений

Комментарии (0)