Фонд Викимедиа, головная организация Википедии и примерно десятка других краудсорсинговых проектов, в среду сообщил, что с января 2024 года потребление трафика для загрузки мультимедиа из Викисклада выросло на 50%.
Причина, как написала компания во вторник в своём блоге, заключается не в растущем спросе со стороны жаждущих знаний людей, а в автоматизированных сборщиках данных, которые хотят обучать модели ИИ.
«Наша инфраструктура рассчитана на внезапные скачки трафика, создаваемые людьми во время событий, вызывающих большой интерес, но количество трафика, создаваемого ботами-скрейперами, беспрецедентно и представляет собой растущие риски и издержки», — говорится в сообщении.
Wikimedia Commons — это общедоступное хранилище изображений, видео и аудиофайлов, которые доступны по открытым лицензиям или находятся в общественном достоянии.
По данным Wikimedia, почти две трети (65%) наиболее «дорогостоящего» трафика, то есть наиболее ресурсоёмкого с точки зрения потребляемого контента, приходится на ботов. Однако на этих ботов приходится всего 35% от общего числа просмотров страниц. По мнению Wikimedia, причина такого несоответствия в том, что часто посещаемый контент хранится ближе к пользователю в кэше, в то время как другой контент, к которому обращаются реже, хранится дальше, в «основном центре обработки данных», откуда его сложнее загрузить. Это тот тип контента, который обычно ищут боты.
«В то время как читатели-люди, как правило, сосредотачиваются на конкретных — часто схожих — темах, боты-краулеры, как правило, «массово просматривают» большее количество страниц и посещают менее популярные страницы, — пишет Wikimedia. — Это означает, что такого рода запросы с большей вероятностью будут перенаправлены в основной центр обработки данных, что значительно увеличивает потребление наших ресурсов».
Если вкратце, то команда по обеспечению надёжности сайта Фонда Викимедиа вынуждена тратить много времени и ресурсов на блокировку поисковых роботов, чтобы не мешать обычным пользователям. И это без учёта расходов на облачные сервисы, с которыми сталкивается Фонд.
По правде говоря, это является частью быстрорастущей тенденции, которая угрожает самому существованию открытого интернета. В прошлом месяце инженер-программист и сторонник открытого исходного кода Дрю ДеВолт посетовал на тот факт, что поисковые роботы игнорируют файлы «robots.txt», которые предназначены для защиты от автоматизированного трафика.
В то время как инфраструктура с открытым исходным кодом, в частности, находится под угрозой, разработчики дают отпор «хитростью и местью». Некоторые технологические компании тоже вносят свой вклад в решение этой проблемы — например, Cloudflare недавно запустила AI Labyrinth, который использует контент, созданный искусственным интеллектом, чтобы замедлить работу поисковых систем.
Однако это очень похоже на игру в кошки-мышки, которая в конечном итоге может заставить многие компании укрыться за логинами и платным доступом — к ущербу для всех, кто пользуется интернетом сегодня.
Источник: TechCrunch

Главный редактор
Социальные сети:
Telegram: https://t.me/creatorproject_ru
VK: https://vk.com/novosti_ai
Дзен: https://dzen.ru/ainewscp
RuTube: https://rutube.ru/channel/58102633/
YouTube: https://www.youtube.com/@creatorproject_ru
TikTok: https://www.tiktok.com/@creatorproject_ru
Likee: AI News (@creatorproject)
Причина в специфике кэширования: популярный контент распространяется по региональным дата-центрам, но боты игнорируют популярность страниц, заставляя систему постоянно обращаться к центральному хранилищу, увеличивая потребление ресурсов. Подобное поведение особенно дорого обходится при скачивании изображений — наиболее затратного типа данных на платформе. Другие ресурсы также столкнулись с агрессивными ботами, скачивающими контент в огромных объёмах.