О ситуации с сайтом lolicit.org

Как мне кажется, сейчас каждый может найти и вбить в переводчик или прочитать в оригинале - такие переводы простых текстов (не манги/комиксов и т.п.) малоинтересны) А текст важный, поэтому нужно было как-то его сюда донести) Решил подойти оригинально) Но, конечно, кому-то может быть полезен и простой перевод.

вам бы детективы писать

Благодарю! Иногда тянет...

Очень рад что этот сайт все еще функционирует, спасибо админам. Несколько дней назад хотел зайти и было 502. Думал уже всё - конец
За оффтоп извиняюсь, это наиболее живой тред

nyarla, это была очередная DDOS-атака на наш сайт, я вчера упомянул об этом в другой теме. Продолжалась она четыре дня (в августе было шесть). Ничего поделать с этим мы не можем, на уcтановку защиты средств нет.

С подобным в последние годы сталкиваются очень многие сайты, в том числе и никак не связанные с лоликоном или хентаем. Куча запросов, боты рыщущие по всем страницам день за днём.
На одном из сайтов прочитал объяснение админа, почему ему пришлось включить капчу для защиты. Оказывается так работает обучение новомодных нейросетей. Им нужна уйма контента - они грабят сайты в интернете, причём так интенсивно, что эти сайты рушатся. Причём для обучения годится почти всё, от текстов про программирование до болтовни пользователей в чатах.
Не знаю тот ли это случай на этом сайте, но симптомы очень похожи. Здесь "приманкой" может послужить галерея с картинками. Часть её доступна даже без регистрации и к картинкам проставлены теги о их содержимом. Именно такая форма нужна для обучения современных "рисующих" нейросетей. Возможно они то и пытатся "вычерпать" всю галерею. А поскольку сервер не очень мощный, он и не может угнаться за всеми запросами - машина то потребляет намного быстрее чем обычные люди.
Но может и правда обычный ДДОС, только сайт то малоизвестный для этого.

Origammi, спасибо, очень интересная мысль. Я и раньше советовал нашему админу запретить незарегистрированным пользователям доступ к любому контенту. Сейчас написал ему ещё раз.

Это было бы полезно и логично... вообще поставить заглушку с логином и не пускать никуда больше ||и возможно формой для регистрации||
Я вообще случайно вас нашел, с хентайчана, давно еще, но на форум не заходил никогда, зря наверное, постараюсь побольше тут бывать

А вообще нейронки конечно занятная штука, картинки генерить не интересно никогда было, а вот текст прикольно могут писать, они конечно зацензуренные все в хлам, но достаточно хорошо пробиваются... пока еще, пожалуй все кроме GPT, вот ее геморно пробивать.

Поскольку появились ответы на моё предположение о ИИ-ботах, грабящих этот сайт, покажу текст одной довольно эмоциональной статьи из блога системного администратора, постоянно сталкивающегося с этой проблемой. Именно прочитав её я связал содержание с проблемами этого сайта.

Возможно текст слишком нетематический для сайта про лоликон, поэтому не буду против, если его удалят или переместят куда-либо.

Оригинал статьи на английском можно посмотреть по этой ссылке - https://drewdevault.com/2025/03/17/2...sts-on-me.html

А здесь я дам её перевод Гуглом. Слишком много в ней компьютерной терминологии, чтоб вручную переводить. Да как по мне, и так понятно выходит.

Статья называется «Пожалуйста, прекратите переносить ваши расходы прямо на меня.»

Цитата:

В последние несколько месяцев, вместо того чтобы работать над нашими приоритетами в SourceHut, я тратил от 20 до 100% своего времени в неделю на борьбу с гиперагрессивными LLM-краулерами в больших масштабах. Это не первый раз, когда SourceHut оказывается в центре злонамеренных махинаций или оплачивает чьи-то внешние расходы — каждые пару лет кто-то придумывает новый способ испортить мне день.

Четыре года назад мы решили ввести плату за использование наших услуг непрерывной интеграции (CI), поскольку их использовали для майнинга криптовалюты. Мы чередовали периоды разработки и внедрения инструментов для борьбы с этим злоупотреблением с периодами практически полного отключения, когда они адаптировались к нашим мерам защиты и перегружали все наши вычислительные мощности майнерами, жаждущими прибыли. Было достаточно тяжело умолять друзей и семью не «инвестировать» в мошенничество, и ещё терпеть, как мошенники вламывались в мой бизнес и ежедневно разносили всё вокруг.

Два года назад мы пригрозили внести в черный список зеркало модуля Go, потому что по какой-то причине команда Go считает, что запуск терабайт клонов git в течение всего дня, каждый день для каждого проекта Go на git.sr.ht дешевле, чем поддержание любого состояния, использование веб-перехватчиков, координация работы между экземплярами или даже просто проектирование системы модулей, которая не требует от Google DoS-атак на git-форжи, чьи годовые бюджеты значительно меньше зарплаты одного инженера Google.

Теперь дело за LLM. Если вы думаете, что эти роботы уважают robots.txt, то вы несколько раз отошли от реальности, основываясь на предположениях о добросовестности. Эти боты сканируют всё, что могут найти, плевать на robots.txt, включая дорогостоящие конечные точки, такие как git-обвинение, каждую страницу каждого журнала git и каждый коммит в каждом репозитории, и делают это, используя случайные User-Agent, которые пересекаются с конечными пользователями и происходят с десятков тысяч IP-адресов – в основном жилых, в несвязанных подсетях, каждый из которых совершает не более одного HTTP-запроса за любой период времени, который мы пытались измерить, – активно и злонамеренно адаптируясь и сливаясь с трафиком конечных пользователей, избегая попыток охарактеризовать их поведение или заблокировать их трафик.

Мы сталкиваемся с десятками коротких сбоев в неделю, и мне приходится пересматривать наши меры по устранению последствий несколько раз в день, чтобы это число не увеличивалось. Когда у меня появляется время заняться чем-то другим, мне часто приходится бросать это дело, потому что все наши оповещения срабатывают, потому что наши текущие меры по устранению последствий перестают работать. Несколько высокоприоритетных задач в SourceHut были отложены на недели или даже месяцы из-за того, что нас постоянно отвлекают на борьбу с этими ботами, и многие пользователи пострадали, поскольку наши меры по устранению последствий не всегда могут надёжно отличить пользователей от ботов.

Все мои друзья-сисадмины сталкиваются с теми же проблемами. Я попросил одного из них прокомментировать черновик этой статьи, и наша беседа была прервана, чтобы разобраться с новой волной ботов LLM на его собственном сервере. Каждый раз, когда я садлюсь выпить пива, поужинать или просто пообщаться с друзьями-сисадминами, мы тут же начинаем жаловаться на ботов и спрашивать, не разгадал ли кто-то из них секрет, как избавиться от них раз и навсегда. Отчаяние в этих разговорах просто осязаемо.

Будь то мошенники, майнящие криптовалюту на вычислительных ресурсах FOSS, или инженеры Google, которым лень грамотно разрабатывать своё ПО, или Кремниевая долина, которая ворует все данные, которые может заполучить, за счёт всех остальных… Мне тошно от того, что все эти расходы выливаются прямо мне в лицо. Сделайте что-нибудь полезное для общества или убирайтесь к чёрту с моих серверов. Вложите все эти миллиарды долларов на общее благо, прежде чем системные администраторы сообща начнут революцию, чтобы сделать это за вас.

Пожалуйста, прекратите легитимировать LLM, генераторы изображений на основе ИИ, GitHub Copilot и прочую подобную ерунду. Умоляю вас, прекратите их использовать, прекратите говорить о них, прекратите создавать новые, просто прекратите . Если выбросы CO2 в воздух, уничтожение всей нашей пресной воды, травмирование дешёвых рабочих, превращение всех знакомых вам системных администраторов в несчастных, массовое кражу кода, книг и произведений искусства и разрушение нашей грёбаной демократии недостаточно для того, чтобы вы оставили это дерьмо в покое, то что же тогда?

Если вы лично работаете над развитием LLM и т. п., знайте: я больше никогда не буду с вами работать и запомню, какую сторону вы выбрали, когда пузырь лопнет.

На большую часть терминов можно не обращать внимание, самыми важными для понимания здесь является только «LLM-краулеры».

Цитата:

Большая языковая модель (БЯМ; англ. large language model, LLM) — языковая модель, состоящая из нейронной сети со множеством параметров (обычно миллиарды весовых коэффициентов и более), обученной на большом количестве неразмеченного текста с использованием обучения без учителя.

Цитата:

LLM-краулеры — это специализированные боты, которые сканируют веб-сайты не для поисковой индексации, а для извлечения информации для питания систем искусственного интеллекта. Это включает текст, изображения, структурированные данные и API.

Сайт на котором работает автор статьи - SourceHut. Это главным образом хранилище кода, альтернатива GitHub. Поэтому вполне понятно почему их постоянно грабят боты. Но с тем же самым сталкиваются и многие другие сайты, в том числе и небольшие, самой разной тематики. Ссылку на эту статью дал сисадмин одного небольшого сайта, посвящённого компьютерной игре, которому пришлось включить на сайте защиту - всем пользователям каждые несколько минут приходилось доказывать, что они не машины, чтобы оставаться на сайте. Но без этого сайт просто зависал намертво из-за ботов. Нейросети всеядны. И если сайт находится на не слишком мощном сервере, то он может и сразу упасть, когда его начинают сканировать.