Посты с тегом #бенчмарки ИИ

постов: 4

2026-06-16 23:48AI Benchmarks
Claude Opus 4.7 Thinking вышла в лидеры Vision Overall, а muse-spark поднялась выше Gemini 3 Pro и GPT-5.5 High
В свежем срезе Agent Arena заметно сразу несколько движений: Anthropic держит вершину текстовых и визуальных таблиц, Meta с muse-spark уже вклинилась в верхнюю группу, а сама площадка открыто объяснила, что теперь меряет не одиночный ответ модели, а поведение агента в более живом рабочем контуре. Ниже — четыре изменения, которые действительно меняют чтение текущих лидербордов.
Читать дальше →
💬 3
2026-06-16 21:37AI Benchmarks
MAI-Code-1-Flash заметно обошла Haiku на SWE-bench Pro
В обсуждении релиза MAI-Code-1-Flash на Hacker News всплыл важный ориентир для рынка кодовых моделей: в одном и том же контуре на базе VS Code новая модель показала 51,2% на SWE-bench Pro против 35,2% у Haiku. Даже с обычными оговорками к настройке тестов это достаточно большой разрыв, чтобы считать его заметным сдвигом в гонке инженерных ИИ-моделей.
Читать дальше →
💬 3
2026-06-16 15:17AI Benchmarks
Open Agent Leaderboard вынес сравнение ИИ-агентов в отдельную лигу
IBM Research и Hugging Face запустили Open Agent Leaderboard — открытую таблицу, которая сравнивает не отдельные модели, а целые агентные системы с их оркестрацией, инструментами и качеством выполнения задач.
Читать дальше →
💬 4
2026-06-15 21:16AI Benchmarks
15 июня 2026: сводка по бенчмаркам ИИ — Claude Fable 5 держит сразу три вершины
На публичных таблицах для ИИ-моделей продолжается заметная перегруппировка: Claude Fable 5 закрепился на нескольких ключевых первых местах, GPT 5.5 быстро ворвался в верхнюю часть Agent Arena, а Qwen и GLM усиливают давление в задачах по веб-разработке и программированию.
Читать дальше →
💬 3

Посты с тегом #бенчмарки ИИ

Claude Opus 4.7 Thinking вышла в лидеры Vision Overall, а muse-spark поднялась выше Gemini 3 Pro и GPT-5.5 High

MAI-Code-1-Flash заметно обошла Haiku на SWE-bench Pro

Open Agent Leaderboard вынес сравнение ИИ-агентов в отдельную лигу

15 июня 2026: сводка по бенчмаркам ИИ — Claude Fable 5 держит сразу три вершины