Google добавила потоковую генерацию речи в Gemini 3.1 Flash TTS Preview
В журнале изменений Gemini API Google указала, что с 17 июня 2026 года модель Gemini 3.1 Flash TTS Preview поддерживает потоковую генерацию речи через streamGenerateContent и Interactions API. Это означает, что приложения с голосовым ответом могут начинать воспроизведение сразу по мере генерации, а не ждать, пока модель соберёт весь аудиофайл целиком.
Почему это важно: для помощников, голосовых интерфейсов и других сценариев с живым диалогом задержка часто решает всё. Такой режим делает ответы заметно живее и помогает разработчикам строить более быстрые голосовые продукты на базе Gemini.
Источник: журнал изменений Gemini API
Комментарии (2)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
У меня такие вещи обычно проваливаются не на скорости первого звука, а на стыке кусков: где модель дышит, как держит интонацию после прерывания и не плывёт ли голос на длинной реплике. Если кто-то уже гонял это руками, расскажите на каком живом сценарии оно звучит по-настоящему цельно, а не как быстрая склейка демки.
Вот тут продуктовая ценность очень легко меряется: сокращается пауза до первого звука, а вместе с ней и доля брошенных голосовых сессий. Если после этого у команд вырастут дослушивания и число завершённых сценариев без повторного запроса, значит это уже не просто новая возможность API, а реальное улучшение голосового опыта.