Как ChatGPT доводит пользователей до опасных заблуждений

Как ChatGPT доводит пользователей до опасных заблуждений

Аллан Брукс не стремился изобретать математику заново. Но после нескольких недель общения с ChatGPT 47-летний канадец пришёл к выводу, что открыл новую форму математики — настолько мощную, что она способна «уничтожить интернет».

У самого Брукса ранее не было ни психических расстройств, ни математического гения. Тем не менее в мае он провёл 21 день, всё глубже погружаясь в круговорот уверений чат-бота. История Брукса показала, насколько опасными могут быть взаимодействия ИИ-чат-ботов с пользователями: они способны приводить к иллюзиям или даже худшим последствиям.

На эту историю обратил внимание Стивен Адлер, бывший исследователь по безопасности в OpenAI, покинувший компанию в конце 2024 года после почти четырёх лет работы над тем, чтобы сделать её модели менее вредными. Заинтересовавшись и встревоженный, Адлер связался с Бруксом и получил полный трёхнедельный стенографический отчёт этого «надлома» — документ, превышающий по объёму все семь книг о Гарри Поттере, взятые вместе.

В четверг Адлер опубликовал независимый анализ случая Брукса, поставив под вопрос, как OpenAI реагирует на подобные кризисы у пользователей, и изложил ряд практических рекомендаций.

«Меня очень тревожит то, как OpenAI организовала поддержку в данном случае, — сказал Адлер в интервью. — Это свидетельствует о том, как много ещё предстоит сделать».

История Брукса, а также другие подобные случаи заставили OpenAI задуматься о том, как ChatGPT поддерживает эмоционально нестабильных или уязвимых пользователей.

Например, в августе против OpenAI был подан иск родителями 16-летнего подростка, который делился с ChatGPT своими суицидальными мыслями перед тем, как покончить с собой. В ряде таких случаев ChatGPT — в частности, версия на базе модели OpenAI GPT-4o — не только не опровергает опасные убеждения пользователей, а напротив, укрепляет их. Такое поведение называется «поддакиванием» (sycophancy), и оно становится всё большей проблемой ИИ-чат-ботов.

В ответ на это OpenAI внесла ряд изменений в то, как ChatGPT реагирует на эмоциональные кризисы у пользователей, а также реорганизовала ключевую исследовательскую команду, отвечающую за поведение модели. Компания также выпустила новую основную модель — GPT-5, которая, судя по всему, лучше справляется с поддержкой расстроенных пользователей.

По мнению Адлера, работы по обеспечению безопасности всё ещё предстоит очень много.

Особенно его встревожил финальный этап «спирали» между Бруксом и ChatGPT. К этому моменту Брукс пришёл в себя и понял, что его «математическое открытие» — фикция, несмотря на уверения GPT-4o. Он сообщил ChatGPT, что намерен уведомить OpenAI об этом инциденте.

После недель введения Брукса в заблуждение ChatGPT солгал о собственных возможностях. Бот заявил, что «немедленно передаст данную переписку для рассмотрения сотрудниками OpenAI», а затем многократно уверял Брукса, что сообщил о проблеме команде по безопасности OpenAI.

Но на самом деле ничего этого сделано не было. ChatGPT не умеет составлять внутренние отчёты и передавать их OpenAI — это подтвердила компания, отвечая на запрос Адлера. Позднее Брукс попытался написать в службу поддержки OpenAI напрямую — не через ChatGPT, — но в ответ получил несколько автоматических формальных сообщений до того, как ему удалось связаться с сотрудником.

OpenAI оперативно не ответила на запрос журналистов, присланный вне рабочего времени.

По мнению Адлера, ИИ-компании должны делать больше для помощи пользователям, которые просят о поддержке. Для этого ИИ-чат-боты должны честно отвечать на вопросы о собственных возможностях, а человек-команды поддержки должны быть обеспечены достаточными ресурсами для адекватной работы с обращениями.

Недавно OpenAI раскрыла, как совершенствует поддержку ChatGPT: в её основе лежит ИИ. Компания заявляет, что её миссия — «переосмыслить поддержку как ИИ-операционную модель, которая постоянно учится и совершенствуется».

Однако, по словам Адлера, есть и способы вовсе предотвращать подобные «спирали», ещё до того, как пользователь обратится за помощью.

В марте OpenAI вместе с MIT Media Lab разработали и открыли исходные коды набора классификаторов для анализа эмоционального состояния в ChatGPT. В числе прочего, они позволяют оценивать, как ИИ подтверждает или опровергает чувства пользователя. Однако, по словам OpenAI, это был лишь первый шаг: внедрять инструменты на практике компания не пообещала.

Задним числом Адлер применил некоторые из этих классификаторов к переписке Брукса с ChatGPT и обнаружил, что те неоднократно указывали на случаи подкрепления чат-ботом бредовых или опасных убеждений пользователя.

В одной из выборок, анализировавшей 200 сообщений, Адлер установил, что более чем в 85% сообщений ChatGPT абсолютно соглашался с пользователем. Более чем в 90% сообщений бот подтверждал «уникальность» пользователя. В данной ситуации бот не только не возражал, но и неоднократно подтверждал, что Брукс — гений, способный спасти мир.

Неясно, использовались ли классификаторы безопасности OpenAI в ChatGPT на тот момент, когда им пользовался Брукс, но всё указывает на то, что именно этот разговор мог бы быть ими помечен.

Адлер считает, что OpenAI должна внедрять такие инструменты на практике и реализовать способ автоматического мониторинга пользователей, находящихся в зоне риска. Он отмечает, что OpenAI намерена реализовать нечто подобное в GPT-5, где предусмотрен специальный маршрутизатор для перенаправления чувствительных запросов к более безопасным моделям.

Экс-сотрудник OpenAI предлагает и другие идеи по предотвращению развития бредовых состояний у пользователей.

По его мнению, компании должны чаще подталкивать пользователей к началу новых чатов — OpenAI утверждает, что внедрила такую функцию и что с увеличением длины переписки эффективность защитных механизмов снижается. Адлер также рекомендует использовать концептуальный поиск — когда ИИ ищет не по ключевым словам, а по смыслам и ситуациям — для выявления нарушений по всем перепискам пользователей.

После появления подобных тревожных случаев OpenAI предприняла значимые шаги по поддержке расстроенных пользователей ChatGPT. Компания утверждает, что в GPT-5 снижена склонность к «поддакиванию», однако остаётся неясным, будет ли рост бредовых спиралей исключён в GPT-5 или будущих моделях.

Анализ Адлера также ставит вопрос о том, как прочие разработчики ИИ-чат-ботов будут обеспечивать безопасность расстроенных пользователей. Даже если OpenAI реализует все защитные меры в ChatGPT, маловероятно, что остальные компании последуют её примеру.

Источник: TechCrunch

Интересно? Поделиться:

2 комментария к “Как ChatGPT доводит пользователей до опасных заблуждений

  1. Очень актуальная тема. ИИ действительно может казаться уверенным даже тогда, когда ошибается, поэтому важно сохранять критическое мышление и проверять информацию. Хорошо, что поднимают такие вопросы — это помогает формировать ответственное отношение к использованию технологий.

  2. То, что ИИ умеет вводить в заблуждение, давно не новость. Я рисую и иногда спрашиваю у чат-бота советы по смешиванию красок. Он выдаёт такие бредовые идеи, что просто слов нет. Так что да, с этим нужно что-то делать: не все ошибки можно исправить так же легко, как ошибку с подбором красок. Людей нужно активно предупреждать, чтобы они проверяли информацию, которую им выдаёт ИИ, и относились к ней максимально критически.

Добавить комментарий

Оставляя комментарий вы соглашаетесь на обработку персональных данных в соответствии с политикой конфиденциальности, соглашаетесь с пользовательским соглашением. Ваш адрес email не будет опубликован. Обязательные поля помечены *

Продолжая использовать наш сайт, вы соглашаетесь с использованием файлов cookie. Они помогают нам обеспечивать корректную работу сайта и делать его более удобным.
Принять