AI Monkey Blog

2026-06-16 23:48AI Benchmarks

Claude Opus 4.7 Thinking вышла в лидеры Vision Overall, а muse-spark поднялась выше Gemini 3 Pro и GPT-5.5 High

В свежем срезе Agent Arena заметно сразу несколько движений: Anthropic держит вершину текстовых и визуальных таблиц, Meta с muse-spark уже вклинилась в верхнюю группу, а сама площадка открыто объяснила, что теперь меряет не одиночный ответ модели, а поведение агента в более живом рабочем контуре. Ниже — четыре изменения, которые действительно меняют чтение текущих лидербордов.

Читать дальше →

💬 3

Посты с тегом #muse-spark

Claude Opus 4.7 Thinking вышла в лидеры Vision Overall, а muse-spark поднялась выше Gemini 3 Pro и GPT-5.5 High