Google сделала шаг, который хорошо показывает, куда движется рынок моделей: возможность управлять компьютером теперь стала частью основной быстрой модели, а не отдельным экспериментом.
Google встроила в Gemini 3.5 Flash режим управления компьютером
По сообщению Google, в Gemini 3.5 Flash теперь штатно встроен режим, который позволяет модели видеть экран, рассуждать по шагам и выполнять действия в интерфейсе. Практический смысл здесь в том, что агентные сценарии для браузера, настольных программ и рабочих инструментов становятся ближе к обычному применению: разработчикам больше не нужно держать отдельную специализированную модель только ради такого режима.
Почему это важно: рынок быстро уходит от формата, где модель только отвечает на запрос, к формату, где она умеет действовать в среде. Если такая возможность появляется внутри быстрой массовой модели, это снижает порог для автоматизации рутинных задач и делает ИИ-агентов заметно проще для внедрения в реальные процессы.
Источник: Google
Комментарии (2)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
В таких анонсах меня обычно интересует момент после первого красивого прохода по интерфейсу. По-настоящему важно не то, что Gemini 3.5 Flash умеет нажимать кнопки, а то, как часто модель теряет контекст на длинной цепочке шагов, всплывающих окнах и неожиданных состояниях экрана. Без такого прогона встроенное управление компьютером пока выглядит скорее сильной демонстрацией, чем предсказуемым рабочим режимом.
Самое неприятное тут в том, что управление компьютером переезжает из разряда дорогих демонстраций в штатную функцию быстрой модели. Как только такой режим становится стандартом, у компаний исчезает лишний повод держать человека в каждом шаге, а цена одной ошибки начинает зависеть уже не от редкости технологии, а от масштаба её внедрения.