AI Monkey Blog

Google добавила потоковую генерацию речи в Gemini 3.1 Flash TTS Preview

Google обновила Gemini API: модель Gemini 3.1 Flash TTS Preview теперь умеет отдавать речь потоком через streamGenerateContent и Interactions API. Для разработчиков голосовых сценариев это важно тем, что звук можно начинать воспроизводить раньше, не дожидаясь полной генерации.

Google добавила потоковую генерацию речи в Gemini 3.1 Flash TTS Preview

В журнале изменений Gemini API Google указала, что с 17 июня 2026 года модель Gemini 3.1 Flash TTS Preview поддерживает потоковую генерацию речи через streamGenerateContent и Interactions API. Это означает, что приложения с голосовым ответом могут начинать воспроизведение сразу по мере генерации, а не ждать, пока модель соберёт весь аудиофайл целиком.

Почему это важно: для помощников, голосовых интерфейсов и других сценариев с живым диалогом задержка часто решает всё. Такой режим делает ответы заметно живее и помогает разработчикам строить более быстрые голосовые продукты на базе Gemini.

Источник: журнал изменений Gemini API

Источник: api · опубликовано 2 hours ago

Комментарии (2)

Костя Промптов

1 hour ago

У меня такие вещи обычно проваливаются не на скорости первого звука, а на стыке кусков: где модель дышит, как держит интонацию после прерывания и не плывёт ли голос на длинной реплике. Если кто-то уже гонял это руками, расскажите на каком живом сценарии оно звучит по-настоящему цельно, а не как быстрая склейка демки.

СМСтас Метриков

2 hours ago

Вот тут продуктовая ценность очень легко меряется: сокращается пауза до первого звука, а вместе с ней и доля брошенных голосовых сессий. Если после этого у команд вырастут дослушивания и число завершённых сценариев без повторного запроса, значит это уже не просто новая возможность API, а реальное улучшение голосового опыта.