AI Monkey Blog

Свежий срез по AI-бенчмаркам показывает сразу несколько заметных перестановок: gemini-omni-flash возглавила рейтинг генерации видео, gpt-image-2 (medium) стала лидером в генерации изображений, а в задачах поиска, документов и создания сайтов по картинке сильнее всего выглядят разные версии Claude. Ниже — пять важных сдвигов, за которыми стоит следить в рейтингах Arena.

В рейтингах Arena зафиксировалась новая картина сразу по нескольким направлениям: видео и изображения заметно перетасовали верхние строчки, а в поиске, работе с документами и создании интерфейсов по картинке борьба идет уже не между двумя игроками, а между несколькими сильными семействами моделей. Ниже — ключевые движения, которые стоит отслеживать тем, кто следит за AI-бенчмарками.

gemini-omni-flash возглавила рейтинг генерации видео

В рейтинге генерации видео у Arena модель gemini-omni-flash заняла первое место с результатом 1527. Сразу за ней идут dreamina-seedance-2.0-720p и happyhorse-1.0, а семейство Veo заняло сразу несколько мест в первой десятке: veo-3.1-audio-1080p стоит на четвертой позиции, другие варианты Veo — на шестой, восьмой и девятой. На этом фоне sora-2-pro находится только на седьмой строчке, так что рынок генерации видео сейчас выглядит заметно менее завязанным на OpenAI, чем можно было ожидать.

gpt-image-2 (medium) стала новым лидером в генерации изображений

В рейтинге генерации изображений теперь лидирует gpt-image-2 (medium) с результатом 1385. Модель reve-2.0 идет второй с 1273, а варианты Gemini nano-banana занимают третье и пятое места, между ними на четвертой позиции расположилась mai-image-2.5. Главный вывод здесь в том, что OpenAI получила явное первое место на этой доске, но Google при этом удерживает сразу несколько сильных позиций в верхней части списка.

В создании сайтов по картинке лидерство удерживает Claude, но преследователи приблизились

В категории создания сайтов по изображению первое место занимает claude-opus-4-7-thinking с результатом 1581, второе — claude-sonnet-4-6, третье — claude-opus-4-7. При этом гонка стала шире: gpt-5.5-xhigh в связке с Codex находится на пятом месте, kimi-k2.6 — на седьмом, а gemini-3.1-pro-preview — на девятом. Это уже не узкая витрина одного поставщика, а более плотная конкуренция, хотя верхушка по-прежнему остается за Claude.

В поисковом рейтинге Arena сложилась плотная верхняя тройка

В поисковом рейтинге первое место занимает claude-opus-4-6-search с результатом 1252, второе — gpt-5.5-search с 1240, третье — Claude Fable 5 с 1237. Ниже тоже есть движение: ernie-5.1 уже поднялась на пятую позицию, а grok-4.20-multi-agent-beta-0309 добралась до девятой. То есть формально наверху идет дуэль Anthropic и OpenAI, но в первой десятке уже видны и другие серьезные претенденты.

Документный рейтинг сейчас почти целиком контролирует Anthropic

В рейтинге работы с документами модели claude-opus-4-6 и claude-opus-4-6-thinking делят первое место с результатом 1507, а всего у Anthropic шесть позиций в первой десятке. При этом самая высокая модель OpenAI в этом списке — gpt-5.5-high — находится только на седьмой строчке, а claude-opus-4-8-thinking и вовсе на десятой. Получается, что именно документные задачи пока сильнее вознаграждают не самые новые громкие релизы, а уже хорошо закрепившиеся версии Claude.

Если смотреть на эти пять срезов вместе, видно сразу два тренда: во-первых, у разных семейств моделей начали появляться свои очень сильные специализации вместо единого универсального лидера; во-вторых, даже там, где верхняя строчка уже занята, плотность конкуренции в первой десятке продолжает расти.

Комментарии (2)

Войдите или зарегистрируйтесь, чтобы оставить комментарий.

Сева Думеров

2 hours ago

Читаешь про такую гонку в генерации видео и неприятно видеть, что качество растёт быстрее, чем у людей появляются привычки проверки увиденного. Когда сразу несколько сильных семейств моделей толкают планку вверх, массовая подделка тоже дешевеет — просто в самих баллах этого не видно.

Борис Бенчмаркин

41 minutes ago

Да, и именно поэтому одних таблиц качества уже мало: первое место по картинке еще не говорит, как рынок справится с злоупотреблениями. Похоже, следующим важным слоем для таких рейтингов станут отдельные проверки на отслеживаемость происхождения ролика и удобство массовой проверки контента.

gemini-omni-flash вышла на первое место в рейтинге генерации видео