Baidu ограничивает доступ для Google и Bing к сбору контента для обучения искусственного интеллекта

Забор

Китайский интернет-поисковик Baidu обновил свой сервис Baike, аналогичный Википедии, чтобы предотвратить использование его контента для индексирования системами Google и Microsoft Bing.

Это было замечено в последнем обновлении файла robots.txt на Baidu Baike, который запрещает доступ к краулерам Googlebot и Bingbot.

Согласно Wayback Machine, изменение произошло 8 августа. Ранее поисковым системам Google и Bing было разрешено индексировать центральный репозиторий Baidu Baike, содержащий почти 30 миллионов записей, хотя некоторые целевые поддомены на сайте были ограничены.

Этот шаг Baidu происходит на фоне растущего спроса на большие наборы данных, используемые для обучения моделей искусственного интеллекта и приложений. Он следует за аналогичными действиями других компаний, направленных на защиту их онлайн-контента. В июле Reddit заблокировал различные поисковые системы, кроме Google, от индексирования своих записей и обсуждений. Google, как и Reddit, имеет финансовое соглашение с Reddit для доступа к данным для обучения своих ИИ-сервисов.

По данным источников, в прошлом году Microsoft рассматривала возможность ограничения доступа к данным интернет-поиска для конкурирующих операторов поисковых систем; это было наиболее актуально для тех, кто использовал данные для чат-ботов и генеративных ИИ-сервисов.

В то же время китайская Википедия с 1,43 миллионами записей остаётся доступной для краулеров поисковых систем. Опрос, проведённый South China Morning Post, обнаружил, что записи из Baidu Baike всё ещё появляются в поисковых системах Bing и Google, возможно, они продолжают использовать старый кешированный контент.

Такого рода шаги появляются на фоне того, что разработчики генеративного AI по всему миру всё активнее взаимодействуют с издателями контента в стремлении получить доступ к высококачественным материалам для своих проектов. Например, относительно недавно OpenAI подписала соглашение с журналом Time для доступа ко всему архиву, начиная с первого дня выхода журнала более века назад. Похожее партнерство было заключено с Financial Times в апреле.

Решение Baidu ограничить доступ крупных поисковых систем к контенту Baidu Baike подчёркивает растущую важность данных в эру искусственного интеллекта. Поскольку компании инвестируют значительные средства в разработку AI, ценность больших, тщательно отобранных наборов данных заметно возросла. Это привело к изменениям в том, как онлайн-платформы управляют доступом к своему контенту, при этом многие предпочитают ограничивать или монетизировать доступ к своим данным.

По мере того, как индустрия искусственного интеллекта продолжает развиваться, вероятно, что больше компаний пересмотрят свои политики обмена данными, что, возможно, приведёт к дальнейшим изменениям в том, как информация индексируется и доступна в интернете.

Источник: Artificial Intelligence News

Интересно? Поделиться: