Kategorier: IT-nyheter

AI-företag samlar in data från massmediesajter i strid med direkta förbud

Perplexity, som beskriver sin produkt som en "gratis sökmotor med artificiell intelligens", har kommit under eld de senaste dagarna. Strax efter att Forbes anklagat det för att ha stulit sin artikel och publicerat den igen på flera plattformar, rapporterade Wired att Perplexity ignorerade Robot Exclusion Protocol, eller robots.txt, och tog bort sina artiklar från sin webbplats och andra Condé Nast-publikationer. Tekniksajten The Shortcut anklagade också AI-företaget för att ta bort sina artiklar. Nu har Reuters avslöjat att Perplexity inte är det enda AI-företaget som kringgår robots.txt-filer och skrapar webbplatser efter innehåll som det sedan använder för att träna sin teknik.

Reuters rapporterade att de hade sett ett brev adresserat till utgivare från TollBit, en startup som kopplar dem till AI-företag så att de kan ingå licensavtal, och varnade dem att "AI-agenter från olika källor (inte bara från ett företag) beslutade att gå förbi robots.txt-protokollet för att ta emot innehåll från webbplatser." Robots.txt-filen innehåller instruktioner för sökrobotar vilka sidor de kan och inte kan komma åt. Webbutvecklare har använt detta protokoll sedan 1994, men det är helt frivilligt att följa det.

Inget företag namngavs i TollBits brev, men Business Insider säger att de har lärt sig att OpenAI och Anthropic – skaparna av chatbotarna ChatGPT respektive Claude – också kringgår robots.txt-signaler. Båda företagen har tidigare sagt att de respekterar instruktionerna "kryp inte" som webbplatser placerar i sina robots.txt-filer.

Under sin undersökning fann Wired att en maskin på en Amazon-server som "definitivt drivs av Perplexity" gick förbi webbplatsens robots.txt-instruktioner. För att bekräfta att Perplexity skrubbar sitt innehåll, matade Wired företagets verktygsrubriker från dess artiklar eller korta tips som beskriver deras berättelser. Verktyget uppges ha gett resultat som exakt parafraserade hennes artiklar "med minimal tillskrivning." Och ibland skapade det till och med felaktiga sammanfattningar för artiklar – Wired säger att chatboten felaktigt påstod att han rapporterade om en specifik polis i Kalifornien som hade begått ett brott i ett fall.

I en intervju med Fast Company sa Perplexitys vd Aravind Srinivas till publikationen att hans företag "inte ignorerar Robot Exclusion Protocol och sedan ljuger om det." Detta betyder dock inte att det inte gynnas av bots som ignorerar protokollet. Srinivas förklarade att företaget använder sökrobotar från tredje part utöver sina egna, och att boten som identifierats av Wired var en av dem. När Fast Company frågade om Perplexity hade sagt till sökrobotleverantören att sluta genomsöka Wired-webbplatsen, sa han: "Det är komplicerat."

Srinivas försvarade sitt företags praxis och sa till publikationen att protokollet för uteslutning av bot "inte är en rättslig grund" och antydde att utgivare och företag som hans kan behöva etablera en ny typ av relation. Han antydde också att Wired medvetet använde tips för att få Perplexity chatbot att bete sig på det sättet, så att vanliga användare inte skulle få samma resultat. Angående de felaktiga fynden som verktyget genererade, sa Srinivas: "Vi sa aldrig att Perplexity-chatboten var felaktig: 'Vi sa aldrig att vi aldrig hade hallucinationer."

Läs också:

Dela
Julia Alexandrova

Kaffegubben. Fotograf. Jag skriver om vetenskap och rymden. Jag tror att det är för tidigt för oss att träffa utomjordingar. Jag följer utvecklingen av robotik, ifall...

Kommentera uppropet

E-postadressen publiceras inte. Obligatoriska fält är markerade*