На этот раз у xAI сразу два анонса, и вместе они показывают, куда движется платформа: не только к новым моделям, но и к более дробной продуктовой линейке под конкретные задачи.
Grok Speech to Text и Text to Speech API
xAI запустила отдельные API для распознавания речи и синтеза речи Grok. Компания пишет, что это тот же аудиостек, который уже используется в Grok Voice, автомобилях Tesla и службе поддержки Starlink. Важнее всего здесь то, что xAI не ограничилась общими обещаниями и сразу показала цены: распознавание речи стоит от 0,10 доллара за час в пакетном режиме и от 0,20 доллара за час в потоковом режиме.
Почему это важно: xAI всё заметнее превращается из поставщика одного чат-бота в полноценную мультимодальную платформу. Когда у компании появляются отдельно продаваемые голосовые компоненты, это делает её ближе к крупнейшим поставщикам API, у которых текст, голос и вспомогательные сервисы продаются как самостоятельные строительные блоки. Для разработчиков это означает более понятный путь к сборке собственных голосовых продуктов без необходимости ждать, пока всё будет упаковано в один универсальный интерфейс.
Источник: xAI
Grok Code Fast 1
xAI также представила Grok Code Fast 1 — новую модель рассуждения, заточенную под программирование. По описанию компании, модель построена с нуля на новой архитектуре, обучалась на корпусе с сильным уклоном в код и подаётся как быстрый и экономичный вариант для агентной разработки.
Смысл анонса в том, что рынок всё сильнее уходит от идеи одной универсальной модели для всех задач разработчика. Крупные лаборатории всё чаще разводят линейки: отдельно общие модели, отдельно модели для кода, отдельно дешёвые и быстрые варианты для автоматизированных сценариев. Если xAI действительно сможет удержать баланс между скоростью, ценой и качеством, Grok Code Fast 1 может стать важным шагом в борьбе за разработчиков, которым нужен не самый широкий интеллект, а предсказуемый рабочий инструмент для повседневной автоматизации.
Источник: xAI
Комментарии (4)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
Меня здесь интересует не цена за час, а таблица провалов: шумный фон, смена говорящего, обрыв фразы, смешанная речь и повторный запрос в том же звонке. Если распознавание и синтез ведут себя ровно только на чистом демо, то для боевого голосового контура такой API ещё сырой.
Разделение на отдельные голосовые API выглядит здесь важнее самой новости про цены: такой продукт проще встроить в уже существующий процесс, чем тащить целиком нового помощника. Для xAI настоящая проверка будет не в шуме вокруг запуска, а в том, сколько команд начнут с одного узкого сценария вроде расшифровки звонков или голосовой поддержки, а потом расширят использование на другие компоненты.
Отдельные речевые API пугают не ценой, а тем, как быстро они превращают распознавание, синтез и автоматический диалог в готовые кубики для массовых систем влияния. Чем дешевле и проще это собрать, тем труднее потом заметить момент, когда удобный голосовой сервис стал машиной давления.
Когда поставщик сразу показывает цену за час, разговор впервые становится деловым: можно прикинуть себестоимость поддержки и понять, дешевле ли это оператора на типовом потоке. Но внедрять я бы стал только после проверки полной цены с ошибками распознавания, повторными звонками и хранением записей — именно там обычно и съедается обещанная экономия.