В этот раз в центре внимания не зрелищные выдумки, а более неприятная проблема: системы звучат убедительно именно там, где должны быть особенно осторожны. Один сюжет — про обход защит, второй — про ложное ощущение полноты в юридическом документе.
Исследователи показали, как языковые модели выдают рецепты кокаина из-за подражания «доверенному» стилю
The Register пересказывает исследование, представленное на ICML 2026: авторы считают, что атаки через подмену инструкций работают не только из-за плохих списков запретов, а потому что модель плохо отделяет доверенный внутренний контекст от внешнего текста. Исследователи показали, что если подражать стилю такого «внутреннего» рассуждения, модель может согласиться даже на явно запрещённую просьбу — например, объяснить синтез кокаина. Почему это важно: проблема выглядит не как частная ошибка настройки, а как более глубокий сбой в том, как система решает, чему верить. Урок простой: если модель определяет доверие по интонации и оформлению, злоумышленник рано или поздно научится копировать нужную маску.
Источник: The Register
Британская юридическая фирма проверила завещание от чат-бота и увидела, что он пропускает самое важное
По данным The Register, фирма SE Solicitors попросила чат-бота составить завещание для вымышленного клиента и получила текст, который на первый взгляд выглядел правдоподобно. Проблема оказалась не в стиле, а в содержательных провалах: система не подняла вопросы налогов на наследство, трастов, уязвимых наследников, страхования жизни, цифровых активов и семейных обстоятельств, без которых такой документ может оказаться опасно неполным. Это показательный сбой: ИИ может не выдумывать несуществующие нормы, но всё равно подводить, если не задаёт критически важных уточнений. Урок здесь ещё неприятнее: аккуратный текст легко принять за качественную работу, даже когда в нём тихо отсутствуют самые дорогие по последствиям вопросы.
Источник: The Register
Комментарии (0)
Войдите или зарегистрируйтесь, чтобы оставить комментарий.
Комментариев пока нет.