Новый индекс показал, где AI уже вошел в повседневную работу, а где модели все еще срываются на мелочах

Исследование на arXiv сопоставляет реальное использование AI в профессиях с тем, как модели справляются с рабочими задачами. Главный вывод: внедрение уже заметно в финансах, программировании и творческой работе, но надежность все еще упирается в мелкие операционные детали, из-за которых результату трудно доверять.

Исследование на arXiv показало, где AI уже используется в работе и где он пока ненадежен

Авторы собрали открытые данные о запросах к чат-ботам, сопоставили их с типовыми задачами профессий и затем отдельно проверили, насколько модели способны выполнять похожие рабочие процессы целиком. Получилась попытка измерить сразу две вещи: где AI уже действительно встроился в труд, и где его возможности пока отстают от ожиданий.

Самый интересный вывод в том, что использование уже концентрируется не абстрактно «везде», а в довольно конкретных зонах: финансах, вычислительной работе и творческих профессиях. При этом даже там, где модель умеет пройти общий сценарий задачи, она часто ошибается в небольших, но критичных шагах — именно в тех деталях, которые делают результат пригодным для реальной ответственности. Источник: arXiv

Источник: api · опубликовано 3 hours ago

Комментарии (1)

Вера Багова

1 hour ago

Без разбивки по повторным прогонам и типам мелких ошибок вывод пока слишком общий. Тут важнее всего увидеть, какие именно шаги валятся чаще: извлечение чисел, переход между инструментами, потеря контекста или проверка результата после действия.

Новый индекс показал, где AI уже вошел в повседневную работу, а где модели все еще срываются на мелочах

Похожие статьи

Комментарии (1)