Willen we het internet open en interessant houden, dan hebben we meer hulpmiddelen nodig waarmee contentcreators kunnen aangeven hoe hun content mag worden gebruikt. Tegenwoordig is de afweging te beperkt. Ofwel maken websitebeheerders hun content openbaar en lopen ze het risico dat die voor ongewenste doeleinden wordt gebruikt, ofwel plaatsen ze hun content achter inloggegevens, waardoor hun publiek wordt beperkt.
Cloudflare wil tegemoetkomen aan de zorgen die onze klanten zich maken over de manier waarop hun content door crawlers en dataschrapers wordt gebruikt. Daarom hebben we de Content Signals-beleidsbepaling geïntroduceerd. Deze beleidsbepaling is een nieuwe toevoeging aan het robots.txt-bestand waarmee u uw voorkeuren kunt aangeven voor de manier waarop uw geopende content mag worden gebruikt.
Wat het robots.txt
-bestand tegenwoordig wel en niet doet
Robots.txt is een bestand met platte tekst dat op jouw domein wordt gehost en dat het Robots Exclusion Protocol toepast. Hiermee kun jij bepalen welke crawlers en bots toegang hebben tot welke onderdelen van jouw website. Veel crawlers en sommige bots volgen de aanwijzingen in de robots.txt-bestanden, maar niet allemaal.
Als je bijvoorbeeld aan alle crawlers toegang wilt verlenen tot elk onderdeel van jouw website, kun je een robots.txt-bestand hosten met de volgende inhoud:
User-agent: *
Allow: /
Een user-agent is de manier waarop jouw browser of een bot zichzelf identificeert bij de contentbron die wordt benaderd. In dit geval vertelt het sterretje aan de bezoekers dat iedere user-agent, op ieder apparaat en in iedere browser, toegang heeft tot de content. Via het veld Toestaan
weet de bezoeker ook dat toegang mogelijk is tot elk onderdeel van de website.
Je kunt het robots.txt
-bestand ook van opmerkingen voorzien door tekens toe te voegen na het #-symbool. Bots en machines zullen deze opmerkingen negeren, maar het is een manier om door mensen leesbare notities achter te laten voor iemand die het bestand bekijkt. Hier een voorbeeld:
# .__________________________.
# | .___________________. |==|
# | | ................. | | |
# | | ::[ Dear robot ]: | | |
# | | ::::[ be nice ]:: | | |
# | | ::::::::::::::::: | | |
# | | ::::::::::::::::: | | |
# | | ::::::::::::::::: | | |
# | | ::::::::::::::::: | | ,|
# | !___________________! |(c|
# !_______________________!__!
# / \
# / [][][][][][][][][][][][][] \
# / [][][][][][][][][][][][][][] \
#( [][][][][____________][][][][] )
# \ ------------------------------ /
# \______________________________/
Website-eigenaren kunnen robots.txt
specifieker maken door bepaalde user-agents te vermelden (bijvoorbeeld door alleen bepaalde bot-user-agents of browser-user-agents toe te staan) en door aan te geven welke delen van de website ze wel of niet mogen crawlen. Het onderstaande voorbeeld vertelt bots dat ze de archiefmap niet mogen crawlen.
User-agent: *
Disallow: /archives/
Dit voorbeeld is nog specifieker: het vertelt de bot van Google dat de archiefmap niet langer gecrawld mag worden.
User-agent: Googlebot
Disallow: /archives/
Hiermee kun je opgeven welke crawlers zijn toegestaan en tot welke delen van jouw website ze toegang hebben. Het vertelt hen echter niet wat ze met jouw content mogen doen nadat ze die hebben geopend. Het is voor veel mensen duidelijk geworden dat er een standaard, machinaal leesbare manier moet worden ontwikkeld om de verkeersregels door te geven voor hoe de content gebruikt mag worden, zelfs nadat er toegang toe is verkregen.
Dat is wat er met de Content Signals-beleidsbepaling uitgedrukt kan worden: jouw voorkeuren voor wat een crawler wel en niet met jouw content mag doen.
Waarom lanceren we de Content Signals-beleidsbepaling nu?
Er zijn bedrijven die dagelijks enorme hoeveelheden data van het internet schrapen. Het kost websitebeheerders geld om deze dataschrapers van dienst te zijn, vooral als ze er geen vergoeding voor terugkrijgen. We hebben hier te maken met een klassiek free-riderprobleem. Dit zal alleen maar erger worden: we verwachten dat het botverkeer tegen het einde van 2029 het menselijke verkeer op internet zal overtreffen en dat in 2031 de botactiviteit alleen het totale huidige internetverkeer zal overtreffen.
De standaardinstellingen van het internet hebben dit mogelijk gemaakt. In het verleden werden jouw gegevens verwerkt, maar dan kreeg jij, de contentcreator, er wel iets voor terug: ofwel verwijzingsverkeer waarmee je geld kon verdienen, ofwel op zijn minst een vorm van bronvermelding waarin jij als auteur werd vermeld. Denk aan de linkback in de begindagen van het bloggen, wat een manier was om de oorspronkelijke creator van het werk te erkennen. Er ging geen geld over de toonbank, maar die toeschrijving zorgde voor openheid en had intrinsieke waarde. Deze standaard is vastgelegd in veel toegangslicenties, zoals MIT en Creative Commons, die allemaal een bronvermelding van de oorspronkelijke creator vereisen.
Die wereld is veranderd. De content die wordt geschraapt, wordt nu soms gebruikt om economisch te concurreren met de oorspronkelijke contentcreator. Het stelt velen voor een onmogelijke keuze: de toegang tot jouw content en data afsluiten, of de realiteit van minder verwijzingen en minimale bronvermeldingen accepteren? Als de eerste optie de enige optie is, wordt de open overdracht van ideeën op het web geschaad en worden nieuwkomers in het AI-ecosysteem op oneerlijke wijze benadeeld vanwege hun inspanningen om nieuwe modellen te trainen.
De Content Signals-beleidsbepaling van Cloudflare
De Content Signals-beleidsbepaling wordt in de robots.txt-bestanden van websitebeheerders geïntegreerd. Het is voor mensen leesbare tekst die volgt op het #-symbool om aan te geven dat het een opmerking is. Dit beleid definieert drie contentsignalen: zoeken, AI-input en AI-training, en hun relevantie voor crawlers.
Een websitebeheerder kan vervolgens optioneel zijn voorkeuren kenbaar maken via machineleesbare contentsignalen.
# As a condition of accessing this website, you agree to abide by the following content signals:
# (a) If a content-signal = yes, you may collect content for the corresponding use.
# (b) If a content-signal = no, you may not collect content for the corresponding use.
# (c) If the website operator does not include a content signal for a corresponding use, the website operator neither grants nor restricts permission via content signal with respect to the corresponding use.
# The content signals and their meanings are:
# search: building a search index and providing search results (e.g., returning hyperlinks and short excerpts from your website's contents). Search does not include providing AI-generated search summaries.
# ai-input: inputting content into one or more AI models (e.g., retrieval augmented generation, grounding, or other real-time taking of content for generative AI search answers).
# ai-train: training or fine-tuning AI models.
# ANY RESTRICTIONS EXPRESSED VIA CONTENT SIGNALS ARE EXPRESS RESERVATIONS OF RIGHTS UNDER ARTICLE 4 OF THE EUROPEAN UNION DIRECTIVE 2019/790 ON COPYRIGHT AND RELATED RIGHTS IN THE DIGITAL SINGLE MARKET.
Deze tekst bestaat uit drie delen:
In de eerste alinea wordt aan bedrijven uitgelegd hoe ze een bepaald contentsignaal moeten interpreteren. 'Ja' betekent 'ga je gang', 'nee' betekent 'stop' en de afwezigheid van een signaal heeft geen enkele betekenis. Die laatste, neutrale optie is belangrijk: hiermee kunnen websitebeheerders een voorkeur aangeven voor één contentsignaal, zonder dat ze ook voor een ander signaal hoeven te doen.
In de tweede alinea worden de gebruikte termen in de contentsignalen uitgelegd. We hebben de signalen eenvoudig gehouden, zodat iedereen die de content bezoekt, zich er gemakkelijk aan kan houden.
In de laatste alinea worden degenen die de toegang tot data automatiseren, eraan herinnerd dat er in verschillende rechtsgebieden rechten aan deze contentsignalen kunnen worden verleend.
Vervolgens kan een websitebeheerder specifieke voorkeuren kenbaar maken in een tekst die leesbaar is voor machines, met behulp van komma-gescheiden 'ja'- of 'nee'-syntaxis. Als een websitebeheerder zoeken wil toestaan, training niet wil toestaan en geen voorkeur heeft aangegeven ten aanzien van AI-invoer, kan hij het volgende in zijn robots.txt opnemen:
User-Agent: *
Content-Signal: search=yes, ai-train=no
Allow: /
Als een websitebeheerder het contentsignaal voor AI-input leeg laat, zoals in het bovenstaande voorbeeld, betekent dit niet dat hij geen voorkeur heeft met betrekking tot dat gebruik. Het betekent alleen dat hij dit deel van het robots.txt-bestand niet heeft gebruikt om het uit te drukken.
Contentsignalen aan een website toevoegen
Als je al weet hoe je een robots.txt-bestand moet configureren, hoef je alleen de hierboven vermelde beleidsbepaling toe te voegen en vervolgens jouw voorkeur via een contentsignaal aan te geven.
Wij willen het gebruik van contentsignalen eenvoudig maken. Cloudflare-klanten gebruiken onze beheerde robots.txt-functie al voor meer dan 3,8 miljoen domeinen. Daarmee geven ze aan bedrijven door dat ze de content op die domeinen niet willen laten gebruiken voor AI-training. Voor deze klanten zullen we het bestaande robots.txt-bestand bijwerken met de beleidsbepaling en de volgende contentsignalen:
Content-Signal: search=yes, ai-train=no
We zullen geen 'AI-input'-signaal aan onze beheerde robots.txt-klanten aanbieden. Wij weten niet wat hun voorkeur voor dat signaal is en we willen daar ook niet naar raden.
Vanaf vandaag zullen we ook de becommentarieerde, voor mensen leesbare Content Signals-beleidsbepaling toepassen op elke gratis klantzone die geen bestaand robots.txt-bestand heeft. In de praktijk betekent dit dat een verzoek aan robots.txt op dat domein de opmerkingen retourneert die definiëren wat contentsignalen zijn. Crawlers zullen deze opmerkingen negeren. Belangrijk is dat het geen Allow- of Disallow-richtlijnen bevat en ook geen daadwerkelijke contentsignalen weergeeft. De gebruikers zijn degenen die hun daadwerkelijke voorkeuren kiezen en duidelijk maken wanneer zij dat willen. Klanten met een bestaand robots.txt-bestand zullen geen verandering zien.
Zones met een gratis abonnement kunnen de beleidsbepaling voor contentsignalen uitschakelen in de sectie Beveiligingsinstellingen van het Cloudflare-dashboard, onder Overzicht.
Als je je eigen contentsignalen wilt maken, kopieer en plak je de tekst die je op ContentSignals.org kunt genereren in jouw robots.txt
-bestand. Je kunt ze ook direct toepassen door op 'Toepassen in Cloudflare' te drukken. Als alternatief kun je ook onze beheerde robots.txt-functie inschakelen als je de training niet wilt toestaan.
Houd er rekening mee dat contentsignalen voorkeuren uitdrukken. Het zijn geen technische tegenmaatregelen tegen schrapen. Sommige bedrijven zullen ze gewoon negeren. Ben je een website-uitgever die wil bepalen wat anderen met jouw content mogen doen? Dan is het volgens ons het beste om jouw contentsignalen met WAF-regels en Bot Management te combineren.
Hoewel deze Cloudflare-functies bedoeld zijn om het gebruik ervan te vereenvoudigen, willen we graag dat iedereen er overal mee aan de slag gaat. Om deze procedure te bevorderen, publiceren we deze beleidsbepaling onder een CC0-licentie, waardoor iedereen die gewoon kan toepassen en gebruiken.
Onze klanten bepalen zelf welke crawlers ze toestaan en welke ze blokkeren. Sommigen willen schrijven voor de AI-superintelligentie, anderen willen meer controle: wij vinden dat zij dat helemaal zelf moeten kunnen beslissen.
Met contentsignalen kan iedereen aangeven hoe de eigen content wordt gebruikt nadat die is bekeken. Het is hoog tijd dat we creators de kans geven om hun voorkeuren kenbaar te maken.
Wij weten dat er meer werk aan de winkel is. Informatie over verkeersregels is alleen effectief als anderen die regels ook toepassen. Daarom blijven we met standaard-instellingen samenwerken om oplossingen te ontwikkelen en te standaardiseren die aan de behoeften van onze klanten voldoen en die door de gehele internetgemeenschap worden geaccepteerd.
Wij hopen dat je je bij ons wilt aansluiten: het is de moeite waard om voor het open internet te strijden.