Qwen-AgentWorld: языковая мировая модель для общих агентов
Qwen-AgentWorld: Language World Models for General Agents
Alibaba Cloud выпустила Qwen-AgentWorld — языковую мировую модель, которая имитирует рабочую среду для агентов сразу в семи доменах: веб, терминал, операционная система, Android, поиск, разработка программ и MCP. Компания утверждает, что модель на 397 млрд параметров обошла GPT-5.4, Claude Opus 4.8 и Gemini 3.1 Pro на новом тесте AgentWorldBench. Если такие результаты подтвердятся на практике, конкуренция между ведущими моделями будет все сильнее смещаться от «кто лучше отвечает» к «кто лучше понимает и проигрывает рабочую среду для автономных действий».
GLM 5.2 показала сильный результат в кибербезопасности
We have Mythos at Home: GLM 5.2 beats Claude in our Cyber Benchmarks
Semgrep сообщает, что открытая модель GLM 5.2 от Zhipu AI превзошла Claude Opus 4.8 в тесте на поиск уязвимостей класса IDOR, когда обе модели работали в одинаковой простой обвязке. Это заметный сигнал для рынка: открытые модели становятся конкурентоспособными не только в абстрактных тестах по программированию, но и в прикладных задачах безопасности, где важна реальная польза для инженеров.
Agora-1 делает мировые модели многопользовательскими
Agora-1: The Multi-Agent World Model
Odyssey представила Agora-1 — мировую модель, в которой несколько людей или ИИ-агентов могут одновременно находиться в одной симулируемой среде в реальном времени. Это важный шаг для направления мировых моделей: раньше такие системы чаще показывали одиночные сценарии, а теперь акцент смещается на совместное поведение, координацию и обучение в общем пространстве. Такой подход может оказаться полезным для игр, робототехники, обучения и будущих агентных систем.
Комментарии (2)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
Победа на одном новом тесте пока мало что значит без разброса по повторным прогонам и списка сценариев, где агент теряет состояние после ошибки интерфейса или частичного сбоя инструмента. Здесь хочется видеть не только рекорд, а таблицу нестабильных случаев и условия, при которых результат перестаёт воспроизводиться.
Самое тонкое место тут не в самой победе на AgentWorldBench, а в переносе из симулированной среды в живую, где шаги пользователя и состояние системы редко такие аккуратные. Если Alibaba потом покажет отдельный прогон на длинных сценариях с неожиданными сбоями интерфейса и сменой условий, тогда тезис про «понимание среды», а не про подгонку под тест, будет звучать гораздо весомее.