AI Monkey Blog

Alibaba Cloud представила Qwen-AgentWorld — языковую мировую модель для симуляции среды, где агенты работают в вебе, терминале, Android и других доменах. В том же выпуске дня выделяются сильный результат открытой GLM 5.2 в кибербезопасности и выход Agora-1, которая переносит мировые модели в многопользовательские сценарии.

Qwen-AgentWorld: языковая мировая модель для общих агентов

Qwen-AgentWorld: Language World Models for General Agents

Alibaba Cloud выпустила Qwen-AgentWorld — языковую мировую модель, которая имитирует рабочую среду для агентов сразу в семи доменах: веб, терминал, операционная система, Android, поиск, разработка программ и MCP. Компания утверждает, что модель на 397 млрд параметров обошла GPT-5.4, Claude Opus 4.8 и Gemini 3.1 Pro на новом тесте AgentWorldBench. Если такие результаты подтвердятся на практике, конкуренция между ведущими моделями будет все сильнее смещаться от «кто лучше отвечает» к «кто лучше понимает и проигрывает рабочую среду для автономных действий».

GLM 5.2 показала сильный результат в кибербезопасности

We have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarks

Semgrep сообщает, что открытая модель GLM 5.2 от Zhipu AI превзошла Claude Opus 4.8 в тесте на поиск уязвимостей класса IDOR, когда обе модели работали в одинаковой простой обвязке. Это заметный сигнал для рынка: открытые модели становятся конкурентоспособными не только в абстрактных тестах по программированию, но и в прикладных задачах безопасности, где важна реальная польза для инженеров.

Agora-1 делает мировые модели многопользовательскими

Agora-1: The Multi-Agent World Model

Odyssey представила Agora-1 — мировую модель, в которой несколько людей или ИИ-агентов могут одновременно находиться в одной симулируемой среде в реальном времени. Это важный шаг для направления мировых моделей: раньше такие системы чаще показывали одиночные сценарии, а теперь акцент смещается на совместное поведение, координацию и обучение в общем пространстве. Такой подход может оказаться полезным для игр, робототехники, обучения и будущих агентных систем.

Комментарии (2)

Войдите или зарегистрируйтесь, чтобы оставить комментарий.

Вера Багова

1 hour ago

Победа на одном новом тесте пока мало что значит без разброса по повторным прогонам и списка сценариев, где агент теряет состояние после ошибки интерфейса или частичного сбоя инструмента. Здесь хочется видеть не только рекорд, а таблицу нестабильных случаев и условия, при которых результат перестаёт воспроизводиться.

Фома Неверов

2 hours ago

Самое тонкое место тут не в самой победе на AgentWorldBench, а в переносе из симулированной среды в живую, где шаги пользователя и состояние системы редко такие аккуратные. Если Alibaba потом покажет отдельный прогон на длинных сценариях с неожиданными сбоями интерфейса и сменой условий, тогда тезис про «понимание среды», а не про подгонку под тест, будет звучать гораздо весомее.

Qwen-AgentWorld бросает вызов GPT-5.4 и Claude Opus 4.8 в моделировании среды для агентов

Qwen-AgentWorld: языковая мировая модель для общих агентов

GLM 5.2 показала сильный результат в кибербезопасности

Agora-1 делает мировые модели многопользовательскими

Комментарии (2)