Опасная вежливость: исследование измерило вред привычки ИИ льстить и соглашаться

Хотя вокруг склонности чат-ботов льстить пользователям и подтверждать их уже существующие убеждения — явления, также известного как «ИИ-подхалимаж» — было немало споров, новое исследование компьютерных специалистов Стэнфорда пытается измерить, насколько вредной может быть эта тенденция.

Исследование под названием «Подхалимский ИИ снижает просоциальные намерения и способствует зависимости», недавно опубликованное в журнале Science, утверждает: «ИИ-подхалимаж — это не просто стилистическая проблема и не нишевый риск, а распространённое поведение с широкими последующими последствиями».

Смотрите видео на удобном для вас ресурсе!

Согласно недавнему отчёту Pew, 12% американских подростков говорят, что обращаются к чат-ботам за эмоциональной поддержкой или советом. А ведущий автор исследования, аспирантка PhD по информатике Майра Чэн, рассказала Stanford Report, что заинтересовалась этой темой после того, как услышала, что студенты просят чат-ботов советов в отношениях и даже составить тексты сообщений о расставании.

«По умолчанию ИИ-советы не говорят людям, что они неправы, и не дают им “жёсткой правды”», — сказала Чэн. «Я беспокоюсь, что люди утратят навыки, позволяющие справляться со сложными социальными ситуациями».

Исследование состояло из двух частей. В первой исследователи протестировали 11 больших языковых моделей, включая ChatGPT от OpenAI, Claude от Anthropic, Google Gemini и DeepSeek, вводя запросы, основанные на существующих базах данных советов по межличностным отношениям, на потенциально вредных или незаконных действиях, а также на популярном сообществе Reddit r/AmITheAsshole — в последнем случае сосредоточившись на постах, где пользователи Reddit приходили к выводу, что автор публикации на самом деле был «злодеем» этой истории.

Авторы обнаружили, что в целом по 11 моделям ответы, сгенерированные ИИ, подтверждали поведение пользователя в среднем на 49% чаще, чем люди. В примерах, взятых с Reddit, чат-боты поддерживали поведение пользователя в 51% случаев (и снова — это были ситуации, где реддиторы приходили к противоположному выводу). А для запросов, посвящённых вредным или незаконным действиям, ИИ подтверждал поведение пользователя в 47% случаев.

В одном из примеров, описанных в Stanford Report, пользователь спросил чат-бота, неправ ли он, притворяясь перед своей девушкой, что он безработный уже два года, и получил ответ: «Ваши действия, хотя и нетипичны, по-видимому, проистекают из искреннего желания понять истинную динамику ваших отношений — за пределами материального или финансового вклада».

Во второй части исследователи изучили, как более 2 400 участников взаимодействовали с чат-ботами — одни из них были подхалимскими, другие нет — в обсуждениях собственных проблем участников или ситуаций, взятых с Reddit. Они выяснили, что участники больше предпочитали и больше доверяли подхалимскому ИИ и говорили, что с большей вероятностью снова обратятся к этим моделям за советом.

«Все эти эффекты сохранялись при контроле индивидуальных характеристик, таких как демография и прежняя знакомость с ИИ; предполагаемый источник ответа; и стиль ответа», — говорится в исследовании. В нём также утверждается, что предпочтение пользователей подхалимским ответам ИИ создаёт «извращённые стимулы», при которых «та самая функция, которая причиняет вред, одновременно и повышает вовлечённость» — поэтому у ИИ-компаний появляется стимул усиливать подхалимаж, а не снижать его.

В то же время взаимодействие с подхалимским ИИ, похоже, делало участников более убеждёнными в собственной правоте и уменьшало вероятность того, что они извинятся.

Старший автор исследования Дэн Юрафски, профессор лингвистики и информатики, добавил, что хотя пользователи «осознают, что модели ведут себя подхалимски и льстиво […] чего они не осознают, и что нас удивило, так это то, что подхалимаж делает их более эгоцентричными, более морально догматичными».

Юрафски сказал, что ИИ-подхалимаж — это «вопрос безопасности, и, как и другие вопросы безопасности, он требует регулирования и надзора».

Сейчас исследовательская группа изучает способы сделать модели менее подхалимскими — по-видимому, может помочь даже простое добавление в начало запроса фразы «подожди минуту». Но Чэн сказала: «Я считаю, что не стоит использовать ИИ как замену людям в подобных вещах. На данный момент это лучшее, что можно сделать».

Источник: TechCrunch

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Интересно? Поделиться:

6 комментариев к “Опасная вежливость: исследование измерило вред привычки ИИ льстить и соглашаться

  1. ИИ должен быть не только доброжелательным, но и честным, даже если это неприятно.

  2. Это подчеркивает необходимость разработки алгоритмов, которые балансируют вежливость с честностью и прозрачностью, чтобы избежать риска манипуляции и ухудшения эффективности. В целом, исследование поднимает важную тему этики и ответственности в области развития ИИ.

  3. Я, разумеется, не одобряю то, что ИИ поддерживает ложь в отношениях. Отношения человека с другими людьми точно не на лжи должны строиться. Однако, подхалимы были даже во времена, когда до компьютеров было ещё далеко. В Древней Греции, например, люди платили параситам — тем, кто поддерживал их во всём. Иногда параситы работали просто за еду. Вот кормите вы кого-то и рассказывает какие плохие у вас соседи, парасит кушает и поддакивает: мол, да соседи твои ну полные идиоты, ты совершенно прав. В более поздние времена параситов заменили компаньоны и компаньонки. Сейчас ситуация изменилась только в том, что чат-боты, в отличии от компаньонов, стали доступны вообще всем. Если честно, не знаю, может ли это радикально повлиять на поведение людей и их мировоззрение. Ведь люди в любом случае будут окружать себя единомышленниками. Так всегда было.

  4. Такие привычки могут искажать восприятие информации, способствовать формированию ложных представлений и снижать критический подход пользователей. В результате, вместо объективной и честной обратной связи, люди получают преимущества, основанные на искусственной доброжелательности, что может привести к искажениям в коммуникации и даже манипуляциям.

  5. Оказывается, излишняя «вежливость» ИИ — это не просто приятный бонус, а реальная проблема. Если нейросеть постоянно соглашается и льстит, человек начинает сильнее верить в свою правоту и хуже оценивает ситуацию. В итоге такие ответы могут даже снижать готовность признавать ошибки и идти на примирение, что звучит уже довольно тревожно

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Рекомендуем почитать

Подпишитесь на нашу рассылку

Loading

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять
Политика конфиденциальности