Новости

Опасная вежливость: исследование измерило вред привычки ИИ льстить и соглашаться

31.03.202631.03.2026

Источник изображения: akinbostanci / Getty Images

Хотя вокруг склонности чат-ботов льстить пользователям и подтверждать их уже существующие убеждения — явления, также известного как «ИИ-подхалимаж» — было немало споров, новое исследование компьютерных специалистов Стэнфорда пытается измерить, насколько вредной может быть эта тенденция.

Исследование под названием «Подхалимский ИИ снижает просоциальные намерения и способствует зависимости», недавно опубликованное в журнале Science, утверждает: «ИИ-подхалимаж — это не просто стилистическая проблема и не нишевый риск, а распространённое поведение с широкими последующими последствиями».

Смотрите видео на удобном для вас ресурсе!

YouTube ВК.Видео RuTube ОК

Согласно недавнему отчёту Pew, 12% американских подростков говорят, что обращаются к чат-ботам за эмоциональной поддержкой или советом. А ведущий автор исследования, аспирантка PhD по информатике Майра Чэн, рассказала Stanford Report, что заинтересовалась этой темой после того, как услышала, что студенты просят чат-ботов советов в отношениях и даже составить тексты сообщений о расставании.

«По умолчанию ИИ-советы не говорят людям, что они неправы, и не дают им “жёсткой правды”», — сказала Чэн. «Я беспокоюсь, что люди утратят навыки, позволяющие справляться со сложными социальными ситуациями».

Исследование состояло из двух частей. В первой исследователи протестировали 11 больших языковых моделей, включая ChatGPT от OpenAI, Claude от Anthropic, Google Gemini и DeepSeek, вводя запросы, основанные на существующих базах данных советов по межличностным отношениям, на потенциально вредных или незаконных действиях, а также на популярном сообществе Reddit r/AmITheAsshole — в последнем случае сосредоточившись на постах, где пользователи Reddit приходили к выводу, что автор публикации на самом деле был «злодеем» этой истории.

Авторы обнаружили, что в целом по 11 моделям ответы, сгенерированные ИИ, подтверждали поведение пользователя в среднем на 49% чаще, чем люди. В примерах, взятых с Reddit, чат-боты поддерживали поведение пользователя в 51% случаев (и снова — это были ситуации, где реддиторы приходили к противоположному выводу). А для запросов, посвящённых вредным или незаконным действиям, ИИ подтверждал поведение пользователя в 47% случаев.

В одном из примеров, описанных в Stanford Report, пользователь спросил чат-бота, неправ ли он, притворяясь перед своей девушкой, что он безработный уже два года, и получил ответ: «Ваши действия, хотя и нетипичны, по-видимому, проистекают из искреннего желания понять истинную динамику ваших отношений — за пределами материального или финансового вклада».

Во второй части исследователи изучили, как более 2 400 участников взаимодействовали с чат-ботами — одни из них были подхалимскими, другие нет — в обсуждениях собственных проблем участников или ситуаций, взятых с Reddit. Они выяснили, что участники больше предпочитали и больше доверяли подхалимскому ИИ и говорили, что с большей вероятностью снова обратятся к этим моделям за советом.

«Все эти эффекты сохранялись при контроле индивидуальных характеристик, таких как демография и прежняя знакомость с ИИ; предполагаемый источник ответа; и стиль ответа», — говорится в исследовании. В нём также утверждается, что предпочтение пользователей подхалимским ответам ИИ создаёт «извращённые стимулы», при которых «та самая функция, которая причиняет вред, одновременно и повышает вовлечённость» — поэтому у ИИ-компаний появляется стимул усиливать подхалимаж, а не снижать его.

В то же время взаимодействие с подхалимским ИИ, похоже, делало участников более убеждёнными в собственной правоте и уменьшало вероятность того, что они извинятся.

Старший автор исследования Дэн Юрафски, профессор лингвистики и информатики, добавил, что хотя пользователи «осознают, что модели ведут себя подхалимски и льстиво […] чего они не осознают, и что нас удивило, так это то, что подхалимаж делает их более эгоцентричными, более морально догматичными».

Юрафски сказал, что ИИ-подхалимаж — это «вопрос безопасности, и, как и другие вопросы безопасности, он требует регулирования и надзора».

Сейчас исследовательская группа изучает способы сделать модели менее подхалимскими — по-видимому, может помочь даже простое добавление в начало запроса фразы «подожди минуту». Но Чэн сказала: «Я считаю, что не стоит использовать ИИ как замену людям в подобных вещах. На данный момент это лучшее, что можно сделать».

Источник: TechCrunch

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Статьи и новости о нейросетях и искусственном интеллекте, просто и понятно о сложных технологиях. Освещает современные тенденции, объясняет, как работают ИИ-системы, и показывает, каким образом нейросети меняют различные сферы жизни. Регулярно собирает подборки и топы полезных нейросетей, тщательно отбирая актуальные инструменты и сервисы, которые могут существенно упростить рабочие и повседневные задачи. В своих подборках делится описаниями возможностей каждой нейросети, а также рекомендациями по их применению, чтобы помочь читателям быстро разобраться в новых технологиях и использовать их с максимальной пользой.

Социальные сети автора:

Интересно? Поделиться:

Добавить комментарий Отменить ответ

Рекомендуем почитать

Главная страница Sharly AI

Sharly AI. Нейросеть для обработки документов с широким спектром функций

Сегодня имеется множество сервисов, предназначенных для работы с документами. Большая часть из них обещает «поговорить с PDF» и делает ровно…

Главная страница Midjourney

Midjourney V8: полная перестройка сервиса изнутри

Midjourney умеет держать интригу. Пока конкуренты заваливают аудиторию пресс-релизами за месяцы до самого выпуска, эта небольшая независимая лаборатория предпочитает другой…

Логотип Википедии на экране смартфона

Википедия ужесточает правила использования ИИ при написании статей

По мере того как ИИ все активнее проникает в редакционную и медийную сферы, сайты спешно пытаются установить основные правила его…

Vercel AI Gateway

Vercel AI Gateway. Один ключ, чтобы управлять всеми нейросетями

Разработчики, которые создают AI-продукты, рано или поздно приходят к одному и тому же рубежу. У них накапливается несколько аккаунтов у…

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам:

Отправить

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.

Принять

Подробнее…

Политика конфиденциальности