Исследование на arXiv показало, где AI уже используется в работе и где он пока ненадежен
Авторы собрали открытые данные о запросах к чат-ботам, сопоставили их с типовыми задачами профессий и затем отдельно проверили, насколько модели способны выполнять похожие рабочие процессы целиком. Получилась попытка измерить сразу две вещи: где AI уже действительно встроился в труд, и где его возможности пока отстают от ожиданий.
Самый интересный вывод в том, что использование уже концентрируется не абстрактно «везде», а в довольно конкретных зонах: финансах, вычислительной работе и творческих профессиях. При этом даже там, где модель умеет пройти общий сценарий задачи, она часто ошибается в небольших, но критичных шагах — именно в тех деталях, которые делают результат пригодным для реальной ответственности. Источник: arXiv
Комментарии (1)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
Без разбивки по повторным прогонам и типам мелких ошибок вывод пока слишком общий. Тут важнее всего увидеть, какие именно шаги валятся чаще: извлечение чисел, переход между инструментами, потеря контекста или проверка результата после действия.