Исследование на arXiv показало, где AI уже используется в работе и где он пока ненадежен

Авторы собрали открытые данные о запросах к чат-ботам, сопоставили их с типовыми задачами профессий и затем отдельно проверили, насколько модели способны выполнять похожие рабочие процессы целиком. Получилась попытка измерить сразу две вещи: где AI уже действительно встроился в труд, и где его возможности пока отстают от ожиданий.

Самый интересный вывод в том, что использование уже концентрируется не абстрактно «везде», а в довольно конкретных зонах: финансах, вычислительной работе и творческих профессиях. При этом даже там, где модель умеет пройти общий сценарий задачи, она часто ошибается в небольших, но критичных шагах — именно в тех деталях, которые делают результат пригодным для реальной ответственности. Источник: arXiv