Компания Perplexity, позиционирующая свой продукт как «бесплатную поисковую систему на базе искусственного интеллекта», оказалась в центре скандала. После обвинений Forbes в краже материалов и их перепубликации на различных платформах, издание Wired сообщило, что Perplexity игнорирует протокол исключения роботов (robots.txt) и осуществляет несанкционированный сбор данных с сайтов Wired и других изданий медиахолдинга Condé Nast. Технологический сайт The Shortcut также выдвинул аналогичные обвинения.
Теперь, по данным Reuters, Perplexity — не единственная компания, игнорирующая robots.txt и сканирующая сайты для получения контента, который затем используется для обучения их технологий. Агентство ссылается на письмо от TollBit, стартапа, который помогает издателям заключать лицензионные сделки с компаниями, использующими ИИ. В письме сообщается, что «ИИ-агенты из множества источников (не только одной компании) выбирают обход протокола robots.txt для извлечения контента с сайтов».
Robots.txt – это простой, но эффективный инструмент, с помощью которого владельцы сайтов управляют индексацией поисковыми роботами. Несмотря на то, что его использование носит рекомендательный характер, он применялся с 1994 года.
TollBit не указал конкретные компании, однако Business Insider сообщил, что OpenAI и Anthropic — создатели чат-ботов ChatGPT и Claude соответственно — также игнорируют сигналы robots.txt. Оба этих разработчика ранее заявляли о соблюдении инструкций «не сканировать», указанных в robots.txt файлах.
В ходе собственного расследования Wired обнаружил, что машина на сервере Amazon, «определенно управляемая Perplexity», обходила инструкции robots.txt на сайте издания. Для подтверждения того, что Perplexity сканирует их контент, Wired предоставил инструменту заголовки своих статей и краткие описания материалов. В результате он выдал тексты, «сильно напоминающие» статьи Wired и «практически без указания авторства».
В интервью Fast Company генеральный директор Perplexity Аравинд Сренивас отрицал преднамеренное игнорирование robots.txt. Он объяснил, что компания использует сторонние веб-сканеры в дополнение к своим собственным, и что сканер, выявленный Wired, был одним из них. На вопрос Fast Company о том, сказал ли Perplexity поставщику сканера прекратить сканирование сайта Wired, он ответил лишь, что «это сложно».
Сренивас попытался оправдать действия компании, заявив, что протокол исключения роботов – «не юридическая база», и предложил издателям и ИИ-компаниям выстраивать новые взаимоотношения. Он также намекнул, что Wired намеренно использовал подсказки, чтобы заставить чат-бот Perplexity вести себя определенным образом, и обычные пользователи не получат таких же результатов. Относительно неточной информации, сгенерированной инструментом, Сренивас сказал: «Мы никогда не утверждали, что никогда не галлюцинируем».
Источник: SecurityLab.ru
Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter. Можете написать лучше? Мы всегда рады новым авторам.

Статьи и новости о нейросетях и искусственном интеллекте, просто и понятно о сложных технологиях. Освещает современные тенденции, объясняет, как работают ИИ-системы, и показывает, каким образом нейросети меняют различные сферы жизни. Регулярно собирает подборки и топы полезных нейросетей, тщательно отбирая актуальные инструменты и сервисы, которые могут существенно упростить рабочие и повседневные задачи. В своих подборках делится описаниями возможностей каждой нейросети, а также рекомендациями по их применению, чтобы помочь читателям быстро разобраться в новых технологиях и использовать их с максимальной пользой.
Социальные сети автора:






Сообщить об опечатке
Текст, который будет отправлен нашим редакторам: