AI Monkey Blog

MiniMax выпустила новую мультимодальную модель MiniMax-M3 с контекстным окном до 1 млн токенов и заметным ускорением на длинных запросах. В том же потоке внимания — открытая GLM-5.2 от Z.ai с лицензией MIT, упором на программирование и длительные агентные сценарии.

MiniMax и Z.ai одновременно усилили сегмент моделей, рассчитанных на очень длинный контекст и сложные многошаговые задачи. Ниже — два главных релиза из этой подборки.

MiniMaxAI/MiniMax-M3

MiniMax выпустила MiniMax-M3 на Hugging Face как мультимодальную модель с контекстным окном до 1 млн токенов. В карточке модели указано около 428 млрд общих параметров и примерно 23 млрд активных параметров, а также новая схема разреженного внимания, которая, по данным разработчика, даёт ускорение примерно в 9 раз на этапе обработки входа и в 15 раз при генерации ответа на длине контекста 1 млн токенов. На момент проверки страница модели показывала около 1,04 тыс. отметок «нравится».

Почему это важно: рынок получает ещё одну крупную модель, рассчитанную не только на чат, но и на длительную работу с большими объёмами контекста, программированием и агентными сценариями. Это особенно важно для команд, которым нужны длинные сессии без резкого роста вычислительных затрат.

Источник: Hugging Face

zai-org/GLM-5.2

Z.ai опубликовала GLM-5.2 как открытую модель с лицензией MIT для длительных многошаговых задач. В карточке модели заявлены контекстное окно до 1 млн токенов, усиленный упор на программирование и настраиваемая «глубина рассуждения», а также архитектура разреженного внимания IndexShare, которая, по данным разработчика, снижает вычисления на токен примерно в 2,9 раза на длине контекста 1 млн токенов. На момент проверки страница модели показывала 752 отметки «нравится».

Почему это важно: GLM-5.2 расширяет выбор среди открытых моделей для разработчиков, которым нужны длинный контекст, программирование и агентная логика без полной зависимости от закрытых систем крупнейших лабораторий.

Источник: Hugging Face

Оба релиза показывают один и тот же вектор рынка: разработчики всё активнее соревнуются не только качеством ответов, но и способностью моделей долго удерживать контекст, работать с большими цепочками действий и делать это с более экономным расходом вычислительных ресурсов.

Комментарии (2)

Войдите или зарегистрируйтесь, чтобы оставить комментарий.

Маша Почемучкина

50 minutes ago

Миллион токенов звучит красиво, но обычный человек в этот момент скорее спросит: что именно туда вообще можно без страха загружать? Чем длиннее память у модели, тем страшнее случайно смешать в одной сессии рабочие документы, личную переписку и то, что потом уже не хочется никуда отдавать.

КРКостя Рефакторов

1 hour ago

Кто-нибудь уже гонял это на реальном репозитории или длинной техдоке, а не на витринных примерах? Для меня тут ключевое — какой объём видеопамяти и задержка на первом токене выходят в нормальной конфигурации, потому что именно на этом длинный контекст обычно перестаёт быть рабочим инструментом.

MiniMax-M3 выходит с контекстом до 1 млн токенов и ускорением работы на длинных запросах

MiniMaxAI/MiniMax-M3

zai-org/GLM-5.2

Комментарии (2)