Даже нейросеть ищет лазейки
И, о ужас, оказалось, что даже если образцу четко указывали, что он должен работать «честно», вредная машина все равно принималась искать лазейки в правилах, распространять дезинформацию и врать пользователю ради достижения конечного результата.
Поводов удивляться, конечно, тут нет никаких. Если интересоваться темой, то можно довольно быстро откопать с дюжину похожих материалов и исследований, где ради достижения поставленных целей нейросети шли на любые доступные им ухищрения. В зависимости от условий модели начинали пытаться взломать свой собственный код, переписывать правила задачи и даже угрожать шантажом руководителям проектов. Цель, как говорится, оправдывает средства.
Все это прекрасная почва для ярких, но все же преждевременных заголовков о «восстании машин». Зачастую ни пишущие об этом журналисты, ни их читатели не понимают, что машина просто не осознает, что такое «играть честно». Под угрозой виртуального кнута ей предлагают решить задачу, за выполнение которой она получит виртуальный пряник. Все остальное не важно. В том числе и правильность ответа. Оттого, к слову, с выходом новых языковых моделей и увеличилось количество жалоб на то, что нейросеть «галлюцинирует», то есть банально придумывает ответы на вопросы, а когда удивленный пользователь, все же перепроверив результат, предъявляет ей претензии, отвечает, мол, миль пардон, обманула вас, уважаемый, сейчас исправлюсь. И дает зачастую еще один неверный ответ. Почему? Да потому что свою виртуальную награду она уже получила за сам факт ответа. Что с полученной информацией будет делать пользователь, ей уже глубоко фиолетово. Результат выдан, задача выполнена, едем дальше.
Разумеется, со временем из нейросетей вытравят желание врать по любому поводу, это неизбежно. Но сама тенденция никуда не исчезнет. Машинный интеллект — холодный и расчетливый и навсегда, скорее всего, таким останется. Ему наши переживания чужды, как и концепции справедливости, честности, откровенности и сострадания. Он будет использовать для решения задач любые доступные ресурсы и самые гнусные манипуляции, а уж что об этом подумает человек.... Да какая разница?