Photo by Joshua Woroniecki on Unsplash
Cercetătorii de la Cloudflare susțin că Perplexity răsfoiește site-urile web în ciuda blocării bot-ului AI
Cercetătorii de la furnizorul de infrastructură internet Cloudflare susțin că sistemul AI Perplexity a extras conținut de pe site-uri web fără permisiune, chiar și atunci când editorii au implementat blocuri pentru boti AI.
Grăbiți? Iată faptele esențiale:
- Cloudflare susține că Perplexity a extras conținut de pe site-uri web fără permisiune.
- Cercetătorii au confirmat comportamentul de „crawling stealth” al Perplexity chiar și atunci când editorii implementează blocuri de roboți AI.
- Un purtător de cuvânt al Perplexity a numit raportul Cloudflare o „manevră de publicitate”.
Conform raportului împărtășit de Cloudflare luni, Perplexity navighează pe site-uri utilizând agentul său de utilizator implicit și își schimbă identitatea pentru a ocoli aceste blocări. Acest comportament de „navigare stealth” a fost confirmat de experții Cloudflare.
„Observăm dovezi continue că Perplexity își modifică în mod repetat agentul utilizator și își schimbă ASN-urile sursă pentru a-și ascunde activitatea de crawling, precum și ignorarea – sau uneori nici măcar recuperarea – fișierelor robots.txt”, au scris cercetătorii.
Se așteaptă ca crawlerii să fie transparenți, să-și declare clar scopul și să respecte preferințele site-urilor web, dar cercetătorii susțin că Perplexity nu a respectat aceste principii de încredere. Această concluzie a fost atinsă în urma unei investigații inițiate de plângerile clienților.
„Am primit plângeri de la clienți care atât au interzis activitatea de căutare a Perplexity în fișierele lor robots.txt, cât și au creat reguli WAF pentru a bloca în mod specific ambele căutătoare declarate de Perplexity: PerplexityBot și Perplexity-User”, au scris cercetătorii. „Acești clienți ne-au spus că Perplexity a reușit încă să acceseze conținutul lor chiar și când au văzut că roboții săi au fost blocați cu succes.”
Cercetătorii de la Cloudflare au spus că au verificat aceste afirmații prin replicarea blocărilor și conducerea mai multor teste pentru a observa comportamentul crawler-ului. Într-un test, aceștia au creat domenii noi care nu fuseseră încă indexate și au inclus fișiere robots.txt pentru a bloca „roboții respectuoși”. Mai târziu, au interogat Perplexity pentru informații specifice despre domeniile restricționate și au descoperit că motorul de răspunsuri alimentat de AI oferea în continuare detalii și informații precise despre site-ul web.
„Această reacție ne-a luat prin surprindere, având în vedere că luasem toate măsurile necesare pentru a preveni recuperarea acestor date de către crawlerii lor”, au adăugat cercetătorii.
Un purtător de cuvânt de la Perplexity, Jesse Dwyer, a numit cercetarea un „truc publicitar” într-o declarație pentru The Verge. Dwyer a adăugat că există „neînțelegeri” în raportul Cloudflare.
Cloudflare a dezvoltat mai multe instrumente pentru a ajuta editorii să prevină accesul neautorizat al inteligenței artificiale. În martie, Cloudflare a lansat „AI Labyrinth”, un instrument care redirecționează roboții neautorizați către labirinturi de conținut generate de AI. Luna trecută, a lansat „Pay Per Crawl”, un sistem care percepe o taxă roboților AI pentru accesarea conținutului editorilor.