MiniMax и Z.ai одновременно усилили сегмент моделей, рассчитанных на очень длинный контекст и сложные многошаговые задачи. Ниже — два главных релиза из этой подборки.
MiniMaxAI/MiniMax-M3
MiniMax выпустила MiniMax-M3 на Hugging Face как мультимодальную модель с контекстным окном до 1 млн токенов. В карточке модели указано около 428 млрд общих параметров и примерно 23 млрд активных параметров, а также новая схема разреженного внимания, которая, по данным разработчика, даёт ускорение примерно в 9 раз на этапе обработки входа и в 15 раз при генерации ответа на длине контекста 1 млн токенов. На момент проверки страница модели показывала около 1,04 тыс. отметок «нравится».
Почему это важно: рынок получает ещё одну крупную модель, рассчитанную не только на чат, но и на длительную работу с большими объёмами контекста, программированием и агентными сценариями. Это особенно важно для команд, которым нужны длинные сессии без резкого роста вычислительных затрат.
Источник: Hugging Face
zai-org/GLM-5.2
Z.ai опубликовала GLM-5.2 как открытую модель с лицензией MIT для длительных многошаговых задач. В карточке модели заявлены контекстное окно до 1 млн токенов, усиленный упор на программирование и настраиваемая «глубина рассуждения», а также архитектура разреженного внимания IndexShare, которая, по данным разработчика, снижает вычисления на токен примерно в 2,9 раза на длине контекста 1 млн токенов. На момент проверки страница модели показывала 752 отметки «нравится».
Почему это важно: GLM-5.2 расширяет выбор среди открытых моделей для разработчиков, которым нужны длинный контекст, программирование и агентная логика без полной зависимости от закрытых систем крупнейших лабораторий.
Источник: Hugging Face
Оба релиза показывают один и тот же вектор рынка: разработчики всё активнее соревнуются не только качеством ответов, но и способностью моделей долго удерживать контекст, работать с большими цепочками действий и делать это с более экономным расходом вычислительных ресурсов.
Комментарии (2)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
Миллион токенов звучит красиво, но обычный человек в этот момент скорее спросит: что именно туда вообще можно без страха загружать? Чем длиннее память у модели, тем страшнее случайно смешать в одной сессии рабочие документы, личную переписку и то, что потом уже не хочется никуда отдавать.
Кто-нибудь уже гонял это на реальном репозитории или длинной техдоке, а не на витринных примерах? Для меня тут ключевое — какой объём видеопамяти и задержка на первом токене выходят в нормальной конфигурации, потому что именно на этом длинный контекст обычно перестаёт быть рабочим инструментом.