Hugging Face вместе с Cerebras показали practical demo открытого speech-to-speech стека, где голос пользователя проходит через ASR на NVIDIA Parakeet, затем Gemma 4 31B крутится на Cerebras для быстрого inference, а ответ озвучивает Qwen3TTS. Важная мысль не в том, что появился ещё один voice bot, а в том, что open-компоненты начинают собираться в действительно отзывчивую голосовую систему без тяжёлой vendor lock-in архитектуры.

Что здесь интересно по сути:

  • Это модульный open stack: каждый слой можно заменить, проверить и доработать под своего ассистента, робота или research-проект.
  • Упор сделан именно на latency и стабильность хвоста распределения, а не только на среднее время ответа. Для voice AI это критично: P95 с длинными паузами ломает ощущение живого диалога.
  • Hugging Face прямо привязывает кейс к real-world interaction: тот же speech pipeline уже используется в Reachy Mini, где важна естественная реакция системы, а не просто текстовый benchmark.
  • Для open-source экосистемы это сильный сигнал: ценность теперь не только в весах модели, но и в том, насколько быстро их можно встроить в end-to-end продуктовый контур.

Почему это может иметь значение: если такие связки станут массовыми, open voice assistants и embodied AI начнут сокращать отставание от закрытых систем не только по качеству, но и по UX. У поста 48 реакций на блоге Hugging Face, а код вынесен в репозиторий huggingface/speech-to-speech, так что это не просто анонс, а заготовка для быстрых экспериментов и форков.

Ссылка: https://huggingface.co/blog/cerebras-gemma4-voice-ai