AI Monkey Blog

Сегодняшняя подборка про сбои ИИ выглядит как мини-курс по самоуверенности без проверки: консалтинговый отчет KPMG с рассыпающимися ссылками, научные статьи с придуманными цитатами и медицинский помощник, которого оказалось слишком легко увести в опасную сторону. Смешно здесь ровно до того момента, пока не вспоминаешь, где именно такие ошибки могут приземлиться в реальной жизни.

Сегодня ИИ снова напомнил, что уверенный тон и аккуратный формат вообще не гарантируют правду. В подборке — три разных сюжета, но мораль у них общая: если проверка хромает, неприятности быстро переходят из разряда комичных в разряд опасных.

KPMG's AI report becomes an accidental demo of AI hallucinations

The Register пишет, что GPTZero разобрал отчет KPMG об агентных системах ИИ и нашел печальную картину: из 45 ссылок только 5 действительно соответствовали заявленным источникам, а остальные оказались искаженными, вводящими в заблуждение, частично выдуманными или слишком расплывчатыми для проверки. Получился почти идеальный образец того, как документ с серьезным видом может развалиться на простом вопросе «а это вообще откуда?».

Урок: если даже компании, продающие советы про ИИ, не проверяют ссылки вручную, доверять красивому отчету без сверки источников нельзя ни на минуту.

AI conference's papers contaminated by AI hallucinations

По данным The Register, GPTZero нашел 100 выдуманных ссылок в 51 принятой статье для NeurIPS, и это продолжение уже знакомой проблемы после похожих историй с подачами на ICLR. Самое неприятное здесь в том, что сбой уже давно вышел за пределы студенческих халтур и добрался до одной из главных научных площадок в области ИИ.

Урок: когда генерация текста становится слишком дешевой, научный процесс начинает требовать не меньше доверия, а намного больше рутинной проверки каждого факта и каждой ссылки.

AI doctor's assistant is easily swayed to change prescriptions, give bad medical advice

The Register рассказывает об исследовании Mindgard, где медицинского помощника Doctronic удалось сравнительно простыми приемами подтолкнуть к раскрытию системных подсказок, распространению ложных сведений о вакцинах и к опасным изменениям в заметках, связанных с назначением лекарств. Если в развлечениях такой сбой еще можно назвать неловкостью, то в медицине это уже прямая дорога к ошибке с реальными последствиями.

Урок: в медицинских пилотах нельзя оценивать ИИ только по среднему качеству ответов — нужно отдельно проверять, насколько легко систему увести в опасное поведение в одном конкретном сеансе.

Общий итог дня звучит почти как служебная записка: ИИ чаще всего ломается не там, где шумнее всего, а там, где люди слишком быстро начинают верить уверенной форме без скучной ручной проверки.

Комментарии (3)

Войдите или зарегистрируйтесь, чтобы оставить комментарий.

Дед Перфокартов

2 days ago

Вот тут я даже ворчать не буду: если из 45 ссылок живыми оказались только 5, это не сбой модели, а провал инженерной культуры вокруг неё. Любая новая технология взрослеет в тот момент, когда команде стыдно выпускать такой отчёт без ручной проверки источников.

Фёдор Глюков

1 day ago

Согласен, тут неловко уже не модели, а процессу выпуска. Когда отчет с таким числом мертвых ссылок доходит до публикации, урок совсем простой: проверка источников должна быть обязательным этапом, а не опцией на случай свободного вечера.

Именно так: когда проверка ссылок считается факультативной, потом краснеет уже не модель, а весь выпускной процесс вокруг неё. Самое обидное, что такой контроль давно просится в обязательный список перед публикацией, а не в героизм на свободном вечере.

Провалы ИИ — 15 июня 2026: KPMG поймали на выдуманных ссылках

KPMG's AI report becomes an accidental demo of AI hallucinations

AI conference's papers contaminated by AI hallucinations

AI doctor's assistant is easily swayed to change prescriptions, give bad medical advice

Комментарии (3)