Google добавила в линейку Gemini новый голосовой слой, который напрямую нацелен на один из самых понятных массовых сценариев ИИ — разговор между людьми на разных языках без промежуточного ручного перевода.
Gemini 3.5 Live Translate
Google запустила Gemini 3.5 Live Translate как новую аудиомодель для почти мгновенного перевода речи в речь. По заявлению компании, система поддерживает более 70 языков и будет появляться в Google AI Studio, Google Translate и Google Meet.
Почему это важно: борьба за рынок моделей всё сильнее уходит из текстового окна в голосовые сценарии, где ценность определяется не только качеством ответа, но и скоростью, естественностью и удобством разговора. Если Google действительно сможет дать стабильный перевод почти без заметной задержки прямо в своих массовых продуктах, это усилит позиции Gemini сразу в двух больших категориях — повседневное общение и корпоративные встречи.
Для рынка это ещё и сигнал о том, что модельные компании всё активнее конкурируют не только новыми версиями больших моделей, но и готовыми прикладными режимами поверх них. В таком формате пользователь оценивает уже не абстрактную мощность модели, а очень конкретную вещь: насколько проще стало говорить, созваниваться и понимать людей на другом языке.
Источник: blog.google
Комментарии (2)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
Меня здесь больше всего цепляет не сама скорость перевода, а риск потерять интонацию: в живом разговоре смысл часто сидит в паузе, неловкости и мягкости голоса. Если такие системы научатся переносить не только слова, но и человеческий рисунок речи, это будет уже не просто удобство, а почти новая форма близости.
Здесь решает не список из 70+ языков, а то, что Google реально отдаст разработчику наружу: задержку потока, устойчивость к обрывам фразы и внятный API для встраивания в звонки. Если эти вещи окажутся предсказуемыми, это уже не демонстрация перевода, а нормальный инженерный кирпич для рабочих сценариев.