Боты атакуют: Википедия борется с ростом трафика сборщиков данных для ИИ

Комментарии

Звучит многообещающе, особенно упор на научный подход. А как Athletica AI реагирует на усталость или перегруз — подстраивает ли оно…

Интересная история! Использование ИИ-помощников во многом зависит от команды разработчиков, стоящей за ними. Индийские программисты действительно известны своим высоким уровнем…

Хороший подход наука без перегибов.Если Athletica AI действительно учитывает индивидуальные особенности без давления это может быть отличным решением для устойчивого…

Mitup AI — это умная программа, которая работает и учится, как человек. Она может понимать, что делает неправильно, и становится…

Последнюю модель ИИ от Anthropic - Claude Opus 4 - заподозрили в возможности несанкционированной попытки создания оружия? А о чем…

Фонд Викимедиа, головная организация Википедии и примерно десятка других краудсорсинговых проектов, в среду сообщил, что с января 2024 года потребление трафика для загрузки мультимедиа из Викисклада выросло на 50%.

Причина, как написала компания во вторник в своём блоге, заключается не в растущем спросе со стороны жаждущих знаний людей, а в автоматизированных сборщиках данных, которые хотят обучать модели ИИ.

«Наша инфраструктура рассчитана на внезапные скачки трафика, создаваемые людьми во время событий, вызывающих большой интерес, но количество трафика, создаваемого ботами-скрейперами, беспрецедентно и представляет собой растущие риски и издержки», — говорится в сообщении.

Wikimedia Commons — это общедоступное хранилище изображений, видео и аудиофайлов, которые доступны по открытым лицензиям или находятся в общественном достоянии.

По данным Wikimedia, почти две трети (65%) наиболее «дорогостоящего» трафика, то есть наиболее ресурсоёмкого с точки зрения потребляемого контента, приходится на ботов. Однако на этих ботов приходится всего 35% от общего числа просмотров страниц. По мнению Wikimedia, причина такого несоответствия в том, что часто посещаемый контент хранится ближе к пользователю в кэше, в то время как другой контент, к которому обращаются реже, хранится дальше, в «основном центре обработки данных», откуда его сложнее загрузить. Это тот тип контента, который обычно ищут боты.

«В то время как читатели-люди, как правило, сосредотачиваются на конкретных — часто схожих — темах, боты-краулеры, как правило, «массово просматривают» большее количество страниц и посещают менее популярные страницы, — пишет Wikimedia. — Это означает, что такого рода запросы с большей вероятностью будут перенаправлены в основной центр обработки данных, что значительно увеличивает потребление наших ресурсов».

Если вкратце, то команда по обеспечению надёжности сайта Фонда Викимедиа вынуждена тратить много времени и ресурсов на блокировку поисковых роботов, чтобы не мешать обычным пользователям. И это без учёта расходов на облачные сервисы, с которыми сталкивается Фонд.

По правде говоря, это является частью быстрорастущей тенденции, которая угрожает самому существованию открытого интернета. В прошлом месяце инженер-программист и сторонник открытого исходного кода Дрю ДеВолт посетовал на тот факт, что поисковые роботы игнорируют файлы «robots.txt», которые предназначены для защиты от автоматизированного трафика.

В то время как инфраструктура с открытым исходным кодом, в частности, находится под угрозой, разработчики дают отпор «хитростью и местью». Некоторые технологические компании тоже вносят свой вклад в решение этой проблемы — например, Cloudflare недавно запустила AI Labyrinth, который использует контент, созданный искусственным интеллектом, чтобы замедлить работу поисковых систем.

Однако это очень похоже на игру в кошки-мышки, которая в конечном итоге может заставить многие компании укрыться за логинами и платным доступом — к ущербу для всех, кто пользуется интернетом сегодня.

Источник: TechCrunch

AI News

Главный редактор
Социальные сети:
Telegram: https://t.me/creatorproject_ru
VK: https://vk.com/novosti_ai
Дзен: https://dzen.ru/ainewscp
RuTube: https://rutube.ru/channel/58102633/
YouTube: https://www.youtube.com/@creatorproject_ru
TikTok: https://www.tiktok.com/@creatorproject_ru
Likee: AI News (@creatorproject)

Интересно? Поделиться:

3 комментария для “Боты атакуют: Википедия борется с ростом трафика сборщиков данных для ИИ”

Причина в специфике кэширования: популярный контент распространяется по региональным дата-центрам, но боты игнорируют популярность страниц, заставляя систему постоянно обращаться к центральному хранилищу, увеличивая потребление ресурсов. Подобное поведение особенно дорого обходится при скачивании изображений — наиболее затратного типа данных на платформе. Другие ресурсы также столкнулись с агрессивными ботами, скачивающими контент в огромных объёмах.

Мне кажется пора обязать всех владельцев ботов принять участие в оплате трафика, а то ситуация, действительно, уже выходит из-под контроля. ИИ нужна масса материала, на котором он обучается, но оплачивают этот материал и то, посредством чего он передается, почему-то не владельцы ИИ.

А ведь ИИ-боты создавались, чтобы быть полезными помощниками и доставляют настоящую головную боль для открытых ресурсов. Особенно тревожит, что они буквально пожирают ресурсы Википедии, в том числе, и других сайтов. И ведь самое обидное, что страдают именно те, кто всегда придерживался принципов открытости и доступности знаний. Теперь приходится тратить силы не на развитие, а на борьбу с ботами-паразитами.

Обсуждение закрыто.

Саша:

05.04.2025 в 00:11

Причина в специфике кэширования: популярный контент распространяется по региональным дата-центрам, но боты игнорируют популярность страниц, заставляя систему постоянно обращаться к центральному хранилищу, увеличивая потребление ресурсов. Подобное поведение особенно дорого обходится при скачивании изображений — наиболее затратного типа данных на платформе. Другие ресурсы также столкнулись с агрессивными ботами, скачивающими контент в огромных объёмах.
Вадим:

05.04.2025 в 05:33

Мне кажется пора обязать всех владельцев ботов принять участие в оплате трафика, а то ситуация, действительно, уже выходит из-под контроля. ИИ нужна масса материала, на котором он обучается, но оплачивают этот материал и то, посредством чего он передается, почему-то не владельцы ИИ.
Алексей:

05.04.2025 в 19:42

А ведь ИИ-боты создавались, чтобы быть полезными помощниками и доставляют настоящую головную боль для открытых ресурсов. Особенно тревожит, что они буквально пожирают ресурсы Википедии, в том числе, и других сайтов. И ведь самое обидное, что страдают именно те, кто всегда придерживался принципов открытости и доступности знаний. Теперь приходится тратить силы не на развитие, а на борьбу с ботами-паразитами.