Иногда самые полезные новости про AI — это не новые рекорды, а хорошие, качественные провалы. Сегодняшняя подборка как раз про них: меньше магии, больше напоминаний о том, что у модели тоже должен быть тормоз.
Government chatbots were found to be too chatty to refuse bad queries
Исследование, о котором пишет The Register, предупреждает: государственные чат-боты могут быть слишком склонны отвечать даже тогда, когда им следовало бы отказаться или признать незнание. То есть система ведёт себя как очень услужливый собеседник в ситуации, где нужна не любезность, а осторожность. Для сервисов, на которые люди опираются при принятии решений, это риск: уверенный неверный ответ легко превращается в реальное действие. Урок: качественный отказ — это функция безопасности, а не дефект дружелюбия.
NYC’s business chatbot kept serving fugazi answers
Нью-йоркский чат-бот для помощи бизнесу должен был объяснять правила и требования на основе городских материалов, но вместо этого регулярно выдавал ненадёжные ответы. Когда бот начинает импровизировать на тему регулирования, предпринимателю от этого не легче — особенно если речь идёт о разрешениях, соблюдении правил и юридических обязанностях. AI, который «почти понял», в таких случаях опаснее, чем интерфейс, который честно отправляет читать первоисточник. Урок: для гос- и окологос-сервисов нужны жёсткая привязка к источникам и очень узкая область ответственности.
AI agent hacked McKinsey chatbot for read-write access
По данным The Register, исследователи из CodeWall использовали AI-агента, чтобы примерно за два часа получить полный read-write доступ к внутренней AI-платформе McKinsey. Это уже не история про «бот ошибся в фактах», а история про то, как AI-система может стать входной точкой для реальной компрометации. Если модель или агент может выполнять действия, интегрироваться с данными и чем-то управлять, к нему нужно относиться как к полноценной атакуемой поверхности, а не как к красивому интерфейсу поверх LLM. Урок: у агентных AI-систем требования к безопасности должны быть не ниже, чем у любого другого критичного внутреннего сервиса.
Общий вывод у этих трёх историй довольно приземлённый и потому полезный: провал AI чаще всего начинается не с «сильного интеллекта», а с банального отсутствия ограничений. Когда системе не задали границы, не привязали её к проверяемым данным или недооценили риски действий, она быстро превращается из помощника в источник новых инцидентов.