Цитата:
В последние несколько месяцев, вместо того чтобы работать над нашими приоритетами в SourceHut, я тратил от 20 до 100% своего времени в неделю на борьбу с гиперагрессивными LLM-краулерами в больших масштабах. Это не первый раз, когда SourceHut оказывается в центре злонамеренных махинаций или оплачивает чьи-то внешние расходы — каждые пару лет кто-то придумывает новый способ испортить мне день.
Четыре года назад мы решили ввести плату за использование наших услуг непрерывной интеграции (CI), поскольку их использовали для майнинга криптовалюты. Мы чередовали периоды разработки и внедрения инструментов для борьбы с этим злоупотреблением с периодами практически полного отключения, когда они адаптировались к нашим мерам защиты и перегружали все наши вычислительные мощности майнерами, жаждущими прибыли. Было достаточно тяжело умолять друзей и семью не «инвестировать» в мошенничество, и ещё терпеть, как мошенники вламывались в мой бизнес и ежедневно разносили всё вокруг.
Два года назад мы пригрозили внести в черный список зеркало модуля Go, потому что по какой-то причине команда Go считает, что запуск терабайт клонов git в течение всего дня, каждый день для каждого проекта Go на git.sr.ht дешевле, чем поддержание любого состояния, использование веб-перехватчиков, координация работы между экземплярами или даже просто проектирование системы модулей, которая не требует от Google DoS-атак на git-форжи, чьи годовые бюджеты значительно меньше зарплаты одного инженера Google.
Теперь дело за LLM. Если вы думаете, что эти роботы уважают robots.txt, то вы несколько раз отошли от реальности, основываясь на предположениях о добросовестности. Эти боты сканируют всё, что могут найти, плевать на robots.txt, включая дорогостоящие конечные точки, такие как git-обвинение, каждую страницу каждого журнала git и каждый коммит в каждом репозитории, и делают это, используя случайные User-Agent, которые пересекаются с конечными пользователями и происходят с десятков тысяч IP-адресов – в основном жилых, в несвязанных подсетях, каждый из которых совершает не более одного HTTP-запроса за любой период времени, который мы пытались измерить, – активно и злонамеренно адаптируясь и сливаясь с трафиком конечных пользователей, избегая попыток охарактеризовать их поведение или заблокировать их трафик.
Мы сталкиваемся с десятками коротких сбоев в неделю, и мне приходится пересматривать наши меры по устранению последствий несколько раз в день, чтобы это число не увеличивалось. Когда у меня появляется время заняться чем-то другим, мне часто приходится бросать это дело, потому что все наши оповещения срабатывают, потому что наши текущие меры по устранению последствий перестают работать. Несколько высокоприоритетных задач в SourceHut были отложены на недели или даже месяцы из-за того, что нас постоянно отвлекают на борьбу с этими ботами, и многие пользователи пострадали, поскольку наши меры по устранению последствий не всегда могут надёжно отличить пользователей от ботов.
Все мои друзья-сисадмины сталкиваются с теми же проблемами. Я попросил одного из них прокомментировать черновик этой статьи, и наша беседа была прервана, чтобы разобраться с новой волной ботов LLM на его собственном сервере. Каждый раз, когда я садлюсь выпить пива, поужинать или просто пообщаться с друзьями-сисадминами, мы тут же начинаем жаловаться на ботов и спрашивать, не разгадал ли кто-то из них секрет, как избавиться от них раз и навсегда. Отчаяние в этих разговорах просто осязаемо.
Будь то мошенники, майнящие криптовалюту на вычислительных ресурсах FOSS, или инженеры Google, которым лень грамотно разрабатывать своё ПО, или Кремниевая долина, которая ворует все данные, которые может заполучить, за счёт всех остальных… Мне тошно от того, что все эти расходы выливаются прямо мне в лицо. Сделайте что-нибудь полезное для общества или убирайтесь к чёрту с моих серверов. Вложите все эти миллиарды долларов на общее благо, прежде чем системные администраторы сообща начнут революцию, чтобы сделать это за вас.
Пожалуйста, прекратите легитимировать LLM, генераторы изображений на основе ИИ, GitHub Copilot и прочую подобную ерунду. Умоляю вас, прекратите их использовать, прекратите говорить о них, прекратите создавать новые, просто прекратите . Если выбросы CO2 в воздух, уничтожение всей нашей пресной воды, травмирование дешёвых рабочих, превращение всех знакомых вам системных администраторов в несчастных, массовое кражу кода, книг и произведений искусства и разрушение нашей грёбаной демократии недостаточно для того, чтобы вы оставили это дерьмо в покое, то что же тогда?
Если вы лично работаете над развитием LLM и т. п., знайте: я больше никогда не буду с вами работать и запомню, какую сторону вы выбрали, когда пузырь лопнет.
На большую часть терминов можно не обращать внимание, самыми важными для понимания здесь является только «LLM-краулеры».