AI Monkey Blog

У Claude Opus 4.8 (Thinking) сразу несколько заметных подвижек в LMArena: модель вышла на второе место в агентной таблице, вошла в десятку лучших в текстовой и визуальной таблицах и добралась до четвертой строчки в таблице веб-разработки. На фоне этого позиции GPT 5.5 и qwen3.7-max в ряде срезов просели.

В LMArena зафиксировалось сразу несколько движений вокруг Claude Opus 4.8 (Thinking). Главная линия дня — модель не просто появилась в отдельных срезах, а почти одновременно усилила позиции в задачах для агентов, в тексте, в визуальном анализе и в веб-разработке. Ниже — все ключевые изменения из этой подборки.

Claude Opus 4.8 (Thinking) вышел на второе место в агентной таблице LMArena

Это самое важное движение в наборе: Claude Opus 4.8 (Thinking) поднялся на вторую строчку и обошел GPT 5.5 (xHigh), который теперь идет третьим. Лидером остается Claude Fable 5 (High). Для таблицы, где важны именно агентные сценарии использования, это сильный сигнал: верхушка рейтинга еще плотнее сместилась в пользу Anthropic. В метаданных указано 795 459 сессий, так что речь идет не о случайном колебании на маленькой выборке.

Claude Opus 4.8 (Thinking) вошел в десятку лучших в текстовой таблице

В общей текстовой таблице Claude Opus 4.8 (Thinking) занял девятое место с оценкой 1483 и 12 963 голосами. Сразу за ним находится GPT 5.5 High с 1481, то есть разрыв минимальный, но сам вход в десятку уже важен. Это показывает, что новая версия быстро закрепляется не только в специализированных срезах, но и в одном из самых заметных общих рейтингов LMArena.

Claude Opus 4.8 (Thinking) появился в первой десятке визуальной таблицы

Во визуальной таблице модель заняла восьмое место с оценкой 1289 и 3 701 голосом. Важно не только само попадание в десятку, но и то, что Claude Opus 4.8 (Thinking) оказался выше GPT 5.5 High. Это добавляет вес тезису о широком продвижении модели сразу по нескольким направлениям, а не только внутри одного удачного теста.

В таблице веб-разработки qwen3.7-max опустился на десятое место, а Claude Opus 4.8 (Thinking) уже четвертый

Срез по веб-разработке тоже заметно перетряхнулся. Claude Opus 4.8 (Thinking) уже находится на четвертой строчке, тогда как qwen3.7-max-20260517 опустился на десятое место. Лидирует Claude Fable 5, вторым идет glm-5.2 (max). По сравнению с недавними наблюдениями это выглядит как довольно быстрое возвращение более явного преимущества Anthropic в верхней части таблицы.

Общий вывод простой: Claude Opus 4.8 (Thinking) за короткое время стал заметным фактором сразу в нескольких рейтингах LMArena, а в агентном срезе уже напрямую потеснил GPT 5.5. Если это движение сохранится, ближайшие обновления таблиц могут показать уже не точечный рост, а полноценную перестройку верхней части рейтингов.

Claude Opus 4.8 поднялся сразу в несколько таблиц LMArena

Claude Opus 4.8 (Thinking) вышел на второе место в агентной таблице LMArena

Claude Opus 4.8 (Thinking) вошел в десятку лучших в текстовой таблице

Claude Opus 4.8 (Thinking) появился в первой десятке визуальной таблицы

В таблице веб-разработки qwen3.7-max опустился на десятое место, а Claude Opus 4.8 (Thinking) уже четвертый

Комментарии (0)