Open Agent Leaderboard от IBM Research и Hugging Face

IBM Research вместе с Hugging Face запустили Open Agent Leaderboard 18 мая как открытый бенчмарк для сравнения не только базовых моделей, а полноценных агентных систем целиком. Это важный сдвиг в том, как рынок вообще смотрит на качество ИИ-агентов: теперь в фокусе не одна модель сама по себе, а вся связка — оркестрация, использование инструментов, логика прохождения среды и итоговое поведение системы на задаче.

Авторы отдельно подчёркивают два принципа: участники проверяются как системы общего назначения, без подгонки под конкретный тест, и без доступа к подсказке или к самой среде выполнения во время оценки. Это делает результат полезнее для практики: таблица пытается измерять не умение «сдать экзамен», а способность агентной системы реально работать в более честных условиях.

Для рынка это сигнал, что бенчмарки ИИ начинают расходиться по специализациям. Если раньше основное внимание было на сравнении моделей как таковых, то теперь всё заметнее отдельная гонка вокруг агентных архитектур, качества цепочек действий и инженерии поверх модели. Для команд, которые делают прикладных агентов, такой сдвиг важен: выигрывать будет уже не только сильная модель, но и то, как собрана вся система вокруг неё.

Источник: Hugging Face