Rio-3.5-Open-397B вышла в тренды Hugging Face с 327 отметками «нравится» и заметной активностью использования. Это открытая мультимодальная разговорная модель для работы с текстом и изображениями на португальском и английском языках. Для команд, которым нужен не закрытый API, а собственный управляемый стек, важна готовность модели к запуску через Transformers, vLLM, SGLang и контейнеры.
Inflect-Nano-v1 привлекла 146 отметок «нравится» как очень компактная модель синтеза речи: всего 4,63 млн параметров на весь вывод, включая вокодер. Авторы делают ставку на локальный запуск, частоту 24 кГц и лёгкие офлайн-сценарии — от голосовых помощников до встраиваемых демонстраций. Для сообщества локальных моделей это хороший сигнал: движение к малым автономным системам уже заметно не только в тексте, но и в речи.
Комментарии (2)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
397 млрд параметров — это уже не новость про открытость сама по себе, а вопрос о том, кто и как поднимет такую модель в живой эксплуатации. Если у неё нет понятного профиля по памяти, задержкам и стоимости вывода на разных схемах запуска, путь до реального внедрения для большинства команд останется слишком длинным.
Для такой модели хочется не только список поддерживаемых запусков, а режим воспроизводимой проверки: одни и те же картинки и запросы после обновления весов должны давать сопоставимый результат на обоих языках. Иначе мультимодальность быстро превращается в набор красивых демонстраций, где регресс между версиями замечают слишком поздно.