AI Web Crawling Bots zijn de kakkerlakken van internet, geloven veel softwareontwikkelaars. Sommige ontwikkelaars zijn begonnen terug te vechten op ingenieuze, vaak humoristische manieren.
Hoewel elke website het doelwit kan zijn van slecht crawler -gedrag – soms het neerhalen van de site – wordt open source -ontwikkelaars “onevenredig” beïnvloed, schrijft Niccolò Venerandi, ontwikkelaar van een Linux -desktop bekend als Plasma en eigenaar van de blog Libreenews.
Naar hun aard delen sites die gratis en open source (FOSS) projecten organiseren, meer van hun infrastructuur publiekelijk, en ze hebben ook meestal minder middelen dan commerciële producten.
Het probleem is dat veel AI -bots het Robots Exclusion Protocol Robot.txt -bestand niet eren, de tool die bots vertelt wat niet te kruipen, oorspronkelijk gemaakt voor zoekmachine bots.
In een blogpost ‘Cry For Help’ in januari beschreef FOSS -ontwikkelaar XE Iarso hoe Amazonbot meedogenloos op een Git Server -website bonst, op het punt van het veroorzaken van DDOS -uitval. Git -servers hosten foss -projecten zodat iedereen die wil de code kan downloaden of eraan kan bijdragen.
Maar deze bot negeerde Iarso’s Robot.txt, verborg zich achter andere IP -adressen en deed zich voor als andere gebruikers, zei Iarso.
“Het is zinloos om AI Crawler -bots te blokkeren omdat ze liegen, hun gebruikersagent veranderen, residentiële IP -adressen als proxy’s gebruiken, en meer,” klaagde Iarso.
“Ze zullen uw site schrapen totdat deze valt, en dan zullen ze het wat meer schrapen. Ze zullen op elke link op elke link op elke link klikken en dezelfde pagina’s keer op keer bekijken. Sommigen van hen zullen zelfs in dezelfde seconde meerdere keren op dezelfde link klikken,” schreef de ontwikkelaar in de post.
Ga de god van Graves binnen
Dus vocht Iarso terug met slimheid en bouwde hij een tool genaamd Anubis.
Anubis is een omgekeerde proxy proof-of-work cheque die moet worden doorgegeven voordat verzoeken een GIT-server mogen raken. Het blokkeert bots maar laat door browsers die door mensen worden beheerd.
Het grappige deel: Anubis is de naam van een god in de Egyptische mythologie die de doden naar oordeel leidt.
“Anubis woog je ziel (hart) en als het zwaarder was dan een veer, werd je hart opgegeten en stierf je, zoals, Mega,” vertelde Iarso aan TechCrunch. Als een webverzoek de uitdaging aanneemt en vastbesloten is als mens, kondigt een schattig anime -beeld succes aan. De tekening is “mijn kijk op antropomorfiserende Anubis”, zegt Iarso. Als het een bot is, wordt het verzoek geweigerd.
Het wrang genoemde project heeft zich verspreid als de wind onder de Foss -gemeenschap. Iarso deelde het op GitHub op 19 maart, en in slechts enkele dagen verzamelde het 2.000 sterren, 20 bijdragers en 39 vorken.
Wraak als verdediging
De onmiddellijke populariteit van Anubis laat zien dat de pijn van Iarso niet uniek is. In feite deelde Venerandi het verhaal na het verhaal:
- Oprichter CEO van SourceHut Drew Devault beschreef uitgaven “van 20-100% van mijn tijd in een bepaalde week die hyper-agressieve LLM-crawlers op schaal beperken” en “tientallen korte storingen per week ervaren”.
- Jonathan Corbet, een beroemde Foss-ontwikkelaar die Linux Industry News-site LWN runt, waarschuwde dat zijn site werd vertraagd door verkeer op DDOS-niveau “van AI Scraper Bots.”
- Kevin Fenzi, de sysadmin van het enorme Linux Fedora -project, zei dat de AI -schraperbots zo agressief waren geworden dat hij het hele land van Brazilië moest blokkeren tegen toegang.
Venerandi vertelt TechCrunch dat hij kent dat meerdere andere projecten dezelfde problemen ondervinden. Een van hen “moest op een gegeven moment tijdelijk alle Chinese IP -adressen verbieden.”
Laat dat even inzinken – dat ontwikkelaars “zelfs moeten wenden tot het verbieden van hele landen” om AI -bots af te weren die robot.txt -bestanden negeren, zegt Venerandi.
Afgezien van het wegen van de ziel van een webaanvraag, geloven andere ontwikkelaars dat wraak de beste verdediging is.
Een paar dagen geleden stelde gebruiker XYZAL voor om robot te laden. Txt verboden pagina’s met “een emmer lading artikelen over de voordelen van het drinken van bleekmiddel” of “artikelen over een positief effect van het vangen van mazelen op prestaties in bed.”
“Denk dat we moeten streven naar de bots om _negative_ hulpprogramma -waarde te krijgen door onze vallen te bezoeken, niet alleen nulwaarde,” legde Xyzal uit.
In januari heeft in januari een anonieme maker die bekend staat als “Aaron” een tool genaamd Nepenthes uitgebracht die precies dat wil doen. Het loopt kruipen in een eindeloos doolhof van nepgehalte, een doel dat de Dev heeft toegelaten tot Ars Technica is agressief, zo niet ronduit kwaadaardig. Het gereedschap is vernoemd naar een vleesetende plant.
En Cloudflare, misschien wel de grootste commerciële speler die verschillende tools biedt om AI -crawlers af te weren, heeft vorige week een vergelijkbaar tool genaamd AI Labyrinth uitgebracht.
Het is bedoeld om “de middelen te vertragen, te verwarren en te verspillen van AI -crawlers en andere bots die ‘geen crawl’ -richtlijnen niet respecteren”, beschreef Cloudflare in zijn blogpost. Cloudflare zei dat het misdragen met AI -crawlers “irrelevante inhoud in plaats van uw legitieme websitegegevens te extraheren.”
De Devault van SourceHut vertelde TechCrunch dat “Nepenthes er een bevredigend gevoel van rechtvaardigheid aan heeft, omdat het onzin voedt met de crawlers en vergiften hun putten, maar uiteindelijk is Anubis de oplossing die werkte” voor zijn site.
Maar Devault gaf ook een openbaar, oprecht pleidooi voor een meer directe oplossing: “Stop alsjeblieft met legitimerende LLMS of AI -afbeeldingsgeneratoren of GitHub Copilot of een van dit afval. Ik smeek je om te stoppen met ze te stoppen, stop met praten over hen, stop met het maken van nieuwe, stop gewoon.”
Aangezien de kans daarop Zilch is, vechten ontwikkelaars, met name in Foss, terug met slimheid en een vleugje humor.