Mit der neuen „Content Signals“-Richtlinie von Cloudflare haben Nutzer die Wahl

Soll das offene und florierende Web erhalten werden, brauchen Content Creator mehr Werkzeuge, mit denen sie signalisieren können, wie ihre Daten verwendet werden dürfen – und zwar, ohne dabei den Zugang einzuschränken. Die derzeit zur Verfügung stehenden Möglichkeiten reichen nicht aus. Wenn Website-Betreiber zulassen, dass man über das Internet auf ihre Inhalte zugreift, riskieren sie, dass der Content für unerwünschte Zwecke genutzt wird. Wird er jedoch mit einer Anmeldeschranke versehen, begrenzt dies seine Reichweite.

Als Antwort auf die Bedenken unserer Kunden bezüglich der Verwendung ihrer Inhalte durch Crawler und Data Scraper führen wir die „Content Signals“-Richtlinie ein. Mit dieser neuen Ergänzung von robots.txt können Sie Ihre Vorlieben dafür zum Ausdruck bringen, wie Ihre Inhalte nach dem Zugriff verwendet werden dürfen.

Was `robots.txt` heute bewirkt und was nicht

Robots.txt ist eine einfache, auf Ihrer Domain gehostete Textdatei, die das Robots Exclusion Protocol implementiert. Sie können damit angeben, welche Crawler und Bots auf welche Teile Ihrer Website zugreifen dürfen. Viele Crawler und einige Bots befolgen die Vorgaben von robots.txt-Dateien, allerdings nicht alle.

Wenn Sie beispielsweise allen Crawlern Zugriff auf jeden Teil Ihrer Website gewähren möchten, könnten Sie eine robots.txt-Datei hosten, die Folgendes enthält:

User-agent: * 
Allow: /

Ein User Agent ist der Weg, über den sich ein Browser oder Bot gegenüber der Ressource identifiziert, auf die er zugreift. In diesem Fall zeigt das Sternchen den Besuchern an, dass jeder User Agent auf jedem Gerät oder Browser auf die Inhalte zugreifen darf. Das / im Feld „Allow“ signalisiert dem Besucher, dass er auch auf jeden Bereich der Website zugreifen kann.

Die robots.txt-Datei kann auch Kommentare enthalten. Diese werden nach dem #-Symbol hinzugefügt. Bots und Maschinen ignorieren diese Kommentare zwar, doch damit können einem Menschen, der sich die Datei ansieht, lesbare Anmerkungen hinterlassen werden. Das kann beispielsweise folgendermaßen aussehen:

#    .__________________________.
#    | .___________________. |==|
#    | | ................. | |  |
#    | | ::[ Dear robot ]: | |  |
#    | | ::::[ be nice ]:: | |  |
#    | | ::::::::::::::::: | |  |
#    | | ::::::::::::::::: | |  |
#    | | ::::::::::::::::: | |  |
#    | | ::::::::::::::::: | | ,|
#    | !___________________! |(c|
#    !_______________________!__!
#   /                            \
#  /  [][][][][][][][][][][][][]  \
# /  [][][][][][][][][][][][][][]  \
#(  [][][][][____________][][][][]  )
# \ ------------------------------ /
#  \______________________________/

Die robots.txt-Datei kann konkreter gefasst werden, indem bestimmte User Agents aufgelistet werden (z. B., um nur bestimmte Bot-User Agents oder Browser-User Agents zuzulassen) und angeben wird, welche Teile einer Website durchsucht werden dürfen oder nicht. In dem folgenden Beispiel werden Bots angewiesen, den Archivpfad nicht zu durchsuchen.

User-agent: * 
Disallow: /archives/

Dieses Beispiel wird hier konkreter, weil der Google-Bot angewiesen wird, das Crawlen des Archivpfads zu unterlassen.

User-agent: Googlebot 
Disallow: /archives/

So kann festgelegt werden, welche Crawler zugelassen sind und auf welche Abschnitte einer Website sie zugreifen dürfen. Was sie nach dem Zugriff mit den Inhalten tun können, wird ihnen jedoch nicht mitgeteilt. Wie von vielen bereits festgestellt, muss es eine standardisierte, maschinenlesbare Methode zur Übermittlung der Regeln für die Nutzung der Daten auch nach dem Zugriff geben.

Hier kommt unsere „Content Signals“-Richtlinie ins Spiel: Mit dieser können Sie Ihre Präferenzen hinsichtlich der Verwendung Ihrer Inhalte durch einen Crawler zum Ausdruck bringen.

Warum führen wir die „Content Signals“-Richtlinie jetzt ein?

Manche Unternehmen lesen jeden Tag riesige Mengen Daten aus dem Internet aus. Für Website-Betreiber sind diese Dienste mit echten Kosten verbunden. Das gilt umso mehr, wenn sie dafür keine Vergütung erhalten. Wir haben es hier also mit einem klassischen Trittbrettfahrerproblem zu tun. Und dies wird sich nur noch verschlimmern. Wir erwarten, dass der durch Bots verursachte Traffic den von Menschen generierten Datenverkehr im Internet Ende 2029 übertreffen und 2031 höher als der gesamte aktuelle Internet-Traffic ausfallen wird.

Dass es so weit gekommen ist, liegt an den Standards, die im Internet de facto angewandt wurden. Es war Usus, dass Daten eingespeist wurden, die Urheber der Inhalte dafür aber etwas zurückbekamen. Entweder erhielten sie monetarisierbaren Referral-Traffic – also Datenverkehr von Links, die auf sie als ursprüngliche Quelle verweisen – oder sie wurden zumindest als Urheber genannt und so mit einer gewissen Form der Anerkennung bedacht. Man denke an die Praxis des Linkback in den frühen Tagen des Bloggens, mit der man ein Werk seinem Urheber zuschreiben konnte. Es wechselte zwar kein Geld den Besitzer, doch diese Art der Zuschreibung erleichterte eine künftige Entdeckung und hatte somit einen intrinsischen Wert. Diese Gewohnheit wurde in vielen permissiven Lizenzen wie MIT und Creative Commons übernommen, die jeweils die Nennung des Urhebers verlangten.

Inzwischen hat sich die Lage verändert. Heute werden die von Scrapern erfassten Inhalte teilweise verwendet, um wirtschaftlich mit dem ursprünglichen Urheber zu konkurrieren. Viele werden vor eine eigentlich unmögliche Wahl gestellt: Sollen sie den Zugang zu Ihren Inhalten und Daten sperren oder sich mit weniger Verweisen und einer bestenfalls minimalen Anerkennung ihrer Urheberschaft abfinden? Wenn sie sich nur durch Abschottung zur Wehr setzen können, beeinträchtigt das den offenen Austausch im Internet. Außerdem werden neuere Akteure im KI-Ökosystem benachteiligt, weil sie dadurch größere Schwierigkeiten haben, ihre Modelle zu trainieren.

Die „Content Signals“-Richtlinie von Cloudflare

Die „Content Signal“-Richtlinie wird in die robots.txt-Dateien von Websites integriert. Es handelt sich um Text, der von Menschen lesbar ist und auf das #-Symbol folgt, das ihn als Kommentar kennzeichnet. In der Richtlinie werden drei sogenannte Inhaltssignale – Suche, KI-Speisung und KI-Training – und deren Relevanz für Crawler definiert.

Ein Website-Betreiber kann dann optional seine Vorlieben durch maschinenlesbare Inhaltssignale zum Ausdruck bringen.

# As a condition of accessing this website, you agree to abide by the following content signals:

# (a)  If a content-signal = yes, you may collect content for the corresponding use.
# (b)  If a content-signal = no, you may not collect content for the corresponding use.
# (c)  If the website operator does not include a content signal for a corresponding use, the website operator neither grants nor restricts permission via content signal with respect to the corresponding use.

# The content signals and their meanings are: 

# search: building a search index and providing search results (e.g., returning hyperlinks and short excerpts from your website's contents).  Search does not include providing AI-generated search summaries.
# ai-input: inputting content into one or more AI models (e.g., retrieval augmented generation, grounding, or other real-time taking of content for generative AI search answers). 
# ai-train: training or fine-tuning AI models.

# ANY RESTRICTIONS EXPRESSED VIA CONTENT SIGNALS ARE EXPRESS RESERVATIONS OF RIGHTS UNDER ARTICLE 4 OF THE EUROPEAN UNION DIRECTIVE 2019/790 ON COPYRIGHT AND RELATED RIGHTS IN THE DIGITAL SINGLE MARKET.

Dieser Text besteht aus drei Teilen:

Der erste Absatz erklärt den Unternehmen, wie ein Inhaltssignal zu interpretieren ist. „Ja“ bedeutet „Los“ und „nein“ bedeutet „Stop“. Die Abwesenheit eines Signals übermittelt keine Bedeutung. Diese letzte, neutrale Option ist wichtig: Sie ermöglicht es Website-Betreibern, eine Vorliebe in Bezug auf ein Inhaltssignal zum Ausdruck zu bringen, ohne dies für ein anderes tun müssen.
Im zweiten Absatz wird das Vokabular der Inhaltssignale definiert. Wir haben uns auf einfache Signale beschränkt, damit sie von jedem leicht befolgt werden können, der auf Inhalte zugreift.
Der letzte Absatz ruft denjenigen, die den Datenzugriff automatisieren, in Erinnerung, dass diese Inhaltssignale in verschiedenen Ländern mit bestimmten Rechten einhergehen könnten.

Ein Website-Betreiber kann dann seine konkreten Vorlieben in maschinenlesbarem Text mit einer durch Kommas getrennten „Ja“- oder „Nein“-Syntax bekannt geben. Wenn er die Suche zulassen, das Training aber untersagen möchte und bezüglich der KI-Speisung keine Präferenzen äußert, könnte er Folgendes in seine robots.txt-Datei aufnehmen:

User-Agent: *
Content-Signal: search=yes, ai-train=no 
Allow: /

Lässt er das Inhaltssignal für KI-Speisung wie im obigen Beispiel leer, heißt das nicht zwangsläufig, dass er keine Vorliebe bezüglich der Verwendung hat. Es bedeutet nur, dass er diesen Teil seiner robots.txt-Datei nicht benutzt hat, um diese zu bekunden.

Wie einer Website Inhaltssignale hinzugefügt werden

Wenn Sie bereits wissen, wie Sie Ihre robots.txt-Datei konfigurieren, ist das Implementieren von Inhaltssignalen so leicht wie das Hinzufügen der oben genannten „Content Signals“-Richtlinie und das Definieren Ihrer Vorlieben mit einem Inhaltssignal.

Wir möchten die Integration von Inhaltssignalen leicht ermöglichen. Bei Cloudflare-Kunden ist die verwaltete robots.txt-Funktion bereits für über 3,8 Millionen Domains aktiviert. Damit teilen sie anderen Unternehmen mit, dass sie nicht möchten, dass die Inhalte auf diesen Domains für das Trainieren von KI verwendet werden. Wir werden die robots.txt-Datei, die wir bereits im Auftrag dieser Kunden bereitstellen, im Zuge einer Aktualisierung um die „Content Signals“-Richtlinie und die folgenden Signale erweitern:

Content-Signal: search=yes, ai-train=no

Unseren Kunden mit verwalteten robots.txt-Dateien werden wir kein „KI-Speisung“-Signal bereitstellen, da wir nicht wissen, welche Präferenz sie diesbezüglich haben, und auch nicht raten wollen.

Ab heute stellen wir die kommentierte, für den Menschen lesbare „Content Signals“-Richtlinie für jede kostenlose Kunden-Zone bereit, die noch nicht über eine robots.txt-Datei verfügt. Dies bedeutet in der Praxis, dass eine Anfrage an robots.txt auf dieser Domain mit den Kommentaren beantwortet wird, die Inhaltssignale definieren. Diese Kommentare werden jedoch von Crawlern ignoriert. Wichtig ist, dass keine „Allow“- oder „Disallow“-Anweisungen enthalten sind und keine eigentlichen Inhaltssignale übermittelt werden. Die Nutzer sind diejenigen, die über ihre tatsächlichen Präferenzen entscheiden und diese zum Ausdruck bringen, wenn und wann sie dazu bereit sind. Kunden mit einer vorhandenen robots.txt-Datei werden keine Änderungen bemerken.

Für Zonen mit kostenloser Tarifoption kann die „Content Signals“-Richtlinie unter „Security Settings“ (Sicherheitseinstellungen) im Cloudflare-Dashboard sowie unter „Overview“ (Übersicht) deaktiviert werden.

Wenn Sie Ihre eigenen Inhaltssignale erstellen möchten, kopieren Sie einfach den Text, den Sie mit unserer Hilfe unter ContentSignals.org generieren, und fügen Sie ihn in Ihre robots.txt-Datei ein oder implementieren Sie ihn sofort über die Schaltfläche „Deploy to Cloudflare“ (Bei Cloudflare implementieren). Alternativ können Sie unsere verwaltete robots.txt-Funktion aktivieren, wenn Sie zu verstehen geben wollen, dass Sie kein Datensammeln zu Trainingszwecken wünschen.

Es ist wichtig, zu beachten, dass mit Inhaltssignalen nur Vorlieben zum Ausdruck gebracht werden. Es handelt sich dabei nicht um technischen Maßnahmen gegen Content-Scraping. Es kann also sein, dass sie von manchen Unternehmen einfach ignoriert werden. Wenn Sie Inhalte auf einer Website veröffentlichen und die Kontrolle darüber haben möchten, was andere damit anstellen, würden wir Ihnen empfehlen, Ihre Inhaltssignale mit WAF-Regeln und Bot-Management zu kombinieren.

Mit diesen Cloudflare-Funktionen soll zwar eigentlich die Nutzung vereinfacht werden, wir möchten aber auch dafür sorgen, dass sie überall von allen genutzt werden. Um dies zu fördern, veröffentlichen wir die Richtlinie unter einer CC0-Lizenz, die es jedem erlaubt, sie frei zu implementieren und zu verwenden.

Was steht als Nächstes an?

Unsere Kunden haben die volle Kontrolle darüber, welche Crawler sie zulassen und welche sie blockieren. Einige wollen womöglich zur Entstehung einer Superintelligenz beitragen, während andere sich mehr Kontrolle wünschen: Wir sind der Meinung, dass die Entscheidung allein bei ihnen liegen sollte.

Mit Inhaltssignalen kann jeder zum Ausdruck bringen, wie die eigenen urheberrechtlich geschützten Inhalte verwendet werden dürfen, nachdem darauf zugegriffen wurde. Eine Möglichkeit zu schaffen, diese Vorlieben zu bekunden, war überfällig.

Wir wissen, dass die Arbeit noch lange nicht getan ist. Verkehrsregeln funktionieren nur, wenn sie von allen anerkannt und geachtet werden. Deshalb werden wir uns weiterhin in Normungsgremien für die Entwicklung und Standardisierung von Lösungen einsetzen, die den Anforderungen unserer Kunden gerecht und von der Internet-Community allgemein akzeptiert werden.

Wir hoffen, dass Sie sich uns bei diesen Bemühungen anschließen werden: Das offene Web ist es wert, dafür zu kämpfen.

Der Cloudflare-Blog

Mit der neuen „Content Signals“-Richtlinie von Cloudflare haben Nutzer die Wahl

Was `robots.txt` heute bewirkt und was nicht

Warum führen wir die „Content Signals“-Richtlinie jetzt ein?

Die „Content Signals“-Richtlinie von Cloudflare

Wie einer Website Inhaltssignale hinzugefügt werden

Was steht als Nächstes an?

Cloudflare-Ausfall am 18. November 2025

Cloudflare-Ausfall am 18. November 2025

Replicate wird Teil von Cloudflare

Making the Internet observable: the evolution of Cloudflare Radar

Mit der neuen „Content Signals“-Richtlinie von Cloudflare haben Nutzer die Wahl

Was robots.txt heute bewirkt und was nicht

Warum führen wir die „Content Signals“-Richtlinie jetzt ein?

Die „Content Signals“-Richtlinie von Cloudflare

Wie einer Website Inhaltssignale hinzugefügt werden

Was steht als Nächstes an?

Cloudflare-Ausfall am 18. November 2025

Cloudflare-Ausfall am 18. November 2025

Replicate wird Teil von Cloudflare

Making the Internet observable: the evolution of Cloudflare Radar

Was `robots.txt` heute bewirkt und was nicht