Registreer om nieuwe berichten te ontvangen:

Meer crawlen, minder doorverwijzen: inzicht in de impact van AI op contentproviders

2025-07-01

7 minuten leestijd
Deze post is ook beschikbaar in het English.

Contentuitgevers waren blij met de crawlers en bots van zoekmachines, omdat die verkeer naar hun websites doorstuurden. De crawlers zien wat er op de site is gepubliceerd en tonen dat materiaal aan de gebruikers die daarnaar op zoek zijn. Website-eigenaren konden hun materiaal verkopen, omdat gebruikers nog steeds door moesten klikken naar de pagina om meer dan alleen een korte titel te zien.

Bots met kunstmatige intelligentie, ofwel AI-bots, crawlen ook de content van een website, maar dan met een heel ander leveringsmodel. Deze Large Language Models (LLM's) doen hun best om het internet te lezen om een systeem te trainen dat de content voor de gebruiker opnieuw kan verpakken, zonder dat de gebruiker ooit naar de originele publicatie hoeft te gaan.

De AI-applicaties proberen de content nog steeds te vermelden, maar we hebben gemerkt dat relatief weinig gebruikers daadwerkelijk doorklikken vergeleken met hoe vaak de AI-bot een bepaalde website afschraapt. We hebben deze uitdaging in kleinere settings besproken en we publiceren vandaag onze bevindingen als een nieuwe statistiek op de AI Insights-pagina van Cloudflare Radar.

Mensen die naar Cloudflare Radar gaan, kunnen nu zien hoe vaak een bepaald AI-model verkeer naar een website doorstuurt vergeleken met hoe vaak het model die website crawlt. We delen deze analyse met een breed publiek, zodat website-eigenaren over betere informatie beschikken en beter kunnen beslissen welke AI-bots ze willen toestaan welke ze moeten blokkeren. Bovendien kunnen gebruikers zo beter begrijpen hoe het gebruik van AI in het algemeen het internetverkeer beïnvloedt.

Hoe werkt deze meting?

HTML-pagina's bevatten waarschijnlijk de meest waardevolle content voor deze crawlers. Daarom worden de weergegeven ratio's berekend door het totale aantal verzoeken van relevante gebruikersagenten, gekoppeld aan een bepaald zoek- of AI-platform met het antwoord Content-type: text/html, te delen door het totale aantal verzoeken voor HTML-inhoud waarbij de Referer-header een hostnaam bevatte die aan een bepaald zoek- of AI-platform was gekoppeld. De onderstaande diagrammen illustreren twee veelvoorkomende crawlscenario's en laten zien dat bedrijven verschillende user agents kunnen gebruiken, afhankelijk van het doel van de crawler. De bovenste afbeelding vertegenwoordigt een eenvoudige transactie waarbij het voorbeeld-AI-platform inhoud opvraagt voor het trainen van een LLM en zichzelf voorstelt als AIBot. De onderste afbeelding toont een scenario waarin het voorbeeld-AI-platform content opvraagt om een verzoek van een gebruiker te verwerken, bijvoorbeeld vluchtinformatie. In dit geval stelt het zich voor als AIBot-User. Voor onze analyse wordt het aanvraagverkeer van beide gebruikersagenten onder één platformnaam samengevoegd.

Wanneer een gebruiker op een link op een website of applicatie klikt, stuurt de client vaak een Referer-header als onderdeel van de aanvraag naar de doelwebsite. In het onderstaande diagram heeft het voorbeeld-AI-platform content geretourneerd met links naar externe websites als reactie op een gebruikersinteractie. Wanneer de gebruiker op een link klikt, wordt er een aanvraag gedaan aan de contentprovider met ai.example.com in de Referer-header, zodat de provider weet waar het verkeer vandaan kwam. Ten behoeve van onze analyse worden hostnamen aan hun respectievelijke platforms gekoppeld.

Observaties

De vergelijking

De nieuwe metriek wordt gepresenteerd als een eenvoudige tabel, waarin het aantal samengevoegde HTML-paginaverzoeken van crawlers (user agents) die aan een bepaald platform zijn gekoppeld, wordt vergeleken met het aantal HTML-paginaverzoeken van clients die worden doorverwezen door een hostnaam die aan een bepaald platform is gekoppeld. De berekende verhouding wordt altijd genormaliseerd naar één verwijzingsverzoek.

De onderstaande tabel laat als voorbeeld zien dat de verhoudingen voor de periode van 24 tot en met 30 mei 2025 variëren van Claude's 75.000:1 tot DuckDuckGo's 0,25:1. Dit betekent dat AI-platform Claude 75.000 HTML-paginaverzoeken deed voor elke HTML-paginaverwijzing, terwijl DuckDuckGo vier keer zoveel verwijzingen als crawlverzoeken verstuurde. (Het verkeer dat door Claude's native app wordt doorverwezen, bevat echter geen Referer-header, en wij denken dat hetzelfde geldt voor het verkeer dat door andere native apps wordt gegenereerd. Aangezien de verwijzingsaantallen alleen het verkeer van de webgebaseerde tools van deze providers omvatten, kunnen deze berekeningen de respectievelijke verhoudingen overschatten, maar het is niet duidelijk met hoeveel.)

Deze verhoudingen zullen uiteraard in de loop van de tijd veranderen als gevolg van nieuwe crawlpatronen. De bovenstaande tabel toont ook de veranderingen van de verhouding ten opzichte van de vorige week, waarbij de veranderingen variëren van een stijging van 51% bij OpenAI tot een daling van 55% bij Google. Deze daling van de verhouding van Google is te wijten aan een waargenomen daling van het crawlverkeer van GoogleBot van 23 tot 27 mei, terwijl de verandering bij OpenAI verband houdt met een waargenomen toename van de GPTBot-crawlactiviteit die begon op 20 mei, zoals te zien is in de onderstaande grafieken.

Radar's Data Explorer omvat een tijdreeksweergave van hoe deze verhoudingen in de loop der tijd veranderen, zoals in het onderstaande Baidu-voorbeeld. De tijdreeksgegevens zijn ook beschikbaar via een API-eindpunt.

Verwijzingsverkeerspatronen

Alle veranderingen en trends in de onderliggende activiteit zijn te zien in de bijbehorende Data Explorer-weergave, evenals in de ruwe data die beschikbaar is via API-eindpunten (tijdreeksen, overzicht). Houd er rekening mee dat de aandelen van zowel verwijzings- als crawlverkeer relatief zijn aan de specifieke verwijzers en crawlers die in de grafieken zijn opgenomen, en dus niet aan het totale Cloudflare-verkeer.

In de onderstaande, op verwijzers gerichte weergave die de eerste vier weken van mei 2025 beslaat, zien we bijvoorbeeld dat het verwijzingsverkeer gedomineerd wordt door het zoekplatform Google, met een vrij consistent dagpatroon dat zichtbaar is in de data. Als gevolg van 'prefetching' op basis van speculatieregels, wordt het verwijzingsverkeer afkomstig van Google's autonoom systeemnummer (ASN) (AS15169) hier specifiek uitgesloten van de analyse, omdat het geen actieve gebruikersconsumptie van content vertegenwoordigt.

Er zijn ook duidelijke dagpatronen zichtbaar in het aandeel van verwijzingsverzoeken op andere zoekplatforms, hoewel het verzoekaandeel maar een fractie is van wat Google doet.

In de maand mei lag het aandeel van al het verkeer dat door AI-platformen werd doorverwezen aanzienlijk lager dan het aandeel van het verkeer dat door zoekplatforms werd doorverwezen.

Veranderingen van het crawlverkeer

Zoals hierboven opgemerkt, wordt de verandering van de verhoudingswaarden in de loop der tijd grotendeels veroorzaakt door verschuivingen in de crawl-activiteit. Deze verschuivingen zijn zichtbaar in de crawl-verkeersaandelen die beschikbaar zijn in Data Explorer, en in de ruwe gegevens die beschikbaar zijn via API-eindpunten (tijdreeksen, overzicht). In de op crawlers gerichte weergave hieronder zien we dat voor de eerste vier weken van mei 2025 het aandeel verzoeken dat verband houdt met de crawl-activiteit van Google voor zowel hun Googlebot- als GoogleOther-identifiers op 23 mei aanzienlijk is gedaald, voordat het zich op 28 mei weer herstelt. Deze waargenomen daling in crawl-activiteit wordt bevestigd door een soortgelijk patroon dat in dezelfde periode is waargenomen in het HTTP-aanvraagverkeer van Google's AS15169. Daarnaast lijkt het erop dat het crawl-verkeer van ClaudeBot van Anthropic op 26 en 27 mei effectief verdween en dat er gedurende de maand meerdere periodes waren waarin er geen crawl-activiteit bij GPTBot van OpenAI werd waargenomen.

Wat dit voor contentproviders betekent

Deze verhoudingen hebben rechtstreeks invloed op het succes van contentpublicaties op internet. Hoewel de resultaten in de loop der tijd zullen variëren, is de momentele trend: meer crawls en minder verwijzingen. Oude zoekindexcrawlers scannen de content een paar keer, of minder vaak, voor elke bezoeker die ernaar toe wordt gestuurd. De toegankelijkheid van een website voor crawlers maakte het inkomstenmodel niet slechter, maar juist rendabeler.

De nieuwe gegevens die we verzamelen, suggereren dat dit niet langer het geval is. Deze modellen consumeren steeds vaker meer content, ondanks dat ze dezelfde hoeveelheid of minder verkeer naar de bron van de content sturen. De afgelopen maanden hebben we nieuwe hulpmiddelen uitgebracht waarmee website-eigenaren weer controle krijgen. Met één klik kunnen uitgevers de soorten AI-crawlers blokkeren die met hun data trainen. We zullen binnenkort nieuwe manieren aankondigen om de waarde-uitwisseling voor beide partijen eerlijk te maken. In de tussentijd raden we contentmakers nog steeds aan om hun voorkeursbeleid voor AI-crawlers te controleren en af te dwingen.

We beschermen complete zakelijke netwerken, helpen klanten toepassingen op internet-schaal efficiënt te bouwen, versnellen websites en internettoepassingen, weren DDoS-aanvallen af, houden hackers op afstand, en kunnen je helpen bij je reis richting Zero Trust.

Bezoek 1.1.1.1 vanaf elk apparaat om aan de slag te gaan met onze gratis app die je internet sneller en veiliger maakt.

Als je meer wilt weten over onze missie om een beter internet te helpen opbouwen, klik dan hier. Als je op zoek bent naar een nieuwe carrièrerichting, bekijk dan onze openstaande vacatures.
RadarInternetverkeerAIBots

Volg ons op X

David Belson|@dbelson
Cloudflare|@cloudflare

Gerelateerde berichten