Les éditeurs de contenu ont accueilli à bras ouverts les robots d'indexation et les bots des moteurs de recherche, car ces derniers contribuaient à générer du trafic vers leurs sites. Les robots d'indexation pouvaient voir le contenu publié sur le site et présenter celui-ci aux utilisateurs qui le recherchaient. Les propriétaires de sites pouvaient monétiser leur contenu, car les utilisateurs devaient se rendre sur la page pour accéder aux diverses ressources situées au-delà du court titre affiché par le moteur de recherche.
Les bots liés à l'intelligence artificielle (IA) explorent également le contenu d'un site, mais suivent un modèle de diffusion radicalement différent. Ces grands modèles linguistiques (Large Language Models, LLM) compulsent Internet au mieux de leurs possibilités afin d'entraîner un système capable de reformuler ce contenu pour l'utilisateur sans jamais avoir besoin de se rendre sur la publication initiale.
Les applications IA essaient toujours de citer le contenu, mais nous avons découvert que très peu d'utilisateurs cliquent réellement sur une page par rapport à la fréquence à laquelle le bot IA extrait un site web donné. Nous avons discuté de ce problème au sein d'environnements plus restreints et sommes ravis de publier aujourd'hui nos découvertes sous la forme d'un nouvel indicateur disponible sur la page consacrée aux informations sur l'IA de Cloudflare Radar.
Les utilisateurs de Cloudflare Radar peuvent désormais consulter la fréquence à laquelle un modèle IA donné envoie du trafic vers un site par rapport à la fréquence d'indexation de ce même site. Nous partageons nos analyses avec un large public afin que les propriétaires de sites puissent disposer de meilleures informations pour les aider à prendre des décisions concernant les bots IA à autoriser ou bloquer, mais aussi pour permettre aux utilisateurs de mieux comprendre comment l'utilisation de l'IA dans son ensemble influe sur le trafic Internet.
Comment fonctionne cet indicateur ?
Comme les pages HTML constituent sans doute le contenu le plus précieux pour ces robots d'indexation, les coefficients affichés sont calculés en divisant le nombre total de requêtes issues d'agents utilisateurs pertinents associés à une plateforme de recherche ou une plateforme IA donnée, lorsque la réponse était de type Content-type: text/html
par le nombre total de requêtes de contenu HTML dont l'en-tête Referer
contenait un nom d'hôte associé à une plateforme de recherche ou une plateforme IA donnée.
Les schémas ci-dessous illustrent deux scénarios d'exploration courants et montrent que les entreprises peuvent utiliser différents agents utilisateurs en fonction de l'objectif du robot d'exploration. Le schéma du haut présente une transaction simple dans laquelle la plateforme d'IA prise pour exemple demande du contenu afin d'entraîner un LLM, qui se représente lui-même sous le nom d'AIBot
. Celui du bas présente un scénario au sein duquel la plateforme d'IA servant d'exemple demande du contenu pour répondre à la requête d'un utilisateur à la recherche d'informations sur un vol. Dans ce cas, la plateforme se représente elle-même sous le nom d'AIBot-User.
Le trafic de requêtes issu de ces deux agents utilisateurs serait agrégé sous un nom de plateforme unique pour les besoins de notre analyse.
Lorsqu'un utilisateur clique sur un lien présent au sein d'un site web ou d'une application, le client envoie souvent un en-tête Referer:
en tant qu'élément de la requête adressée au site cible. Dans le schéma ci-dessous, la plateforme d'IA prise en exemple a renvoyé du contenu recélant des liens vers des sites externes en réponse à une interaction de l'utilisateur. Lorsque l'utilisateur clique sur l'un de ces liens, une requête est adressée au fournisseur de contenu qui inclut ai.example.com
dans l'en-tête Referer
: afin de déterminer l'origine du trafic de la requête. Aux fins de notre analyse, les noms d'hôtes sont associés à leurs plateformes respectives.
Observations
Examen des coefficients
Le nouvel indicateur se présente sous la forme d'un simple tableau qui compare le nombre (agrégé) de requêtes vers des pages HTML de la part de robots d'indexation (agents utilisateurs) associés à une plateforme donnée au nombre de requêtes vers des pages HTML de la part de clients renvoyés par un nom d'hôte associé à une plateforme donnée. Le coefficient calculé est toujours normalisé de manière à former une requête de renvoi unique.
Le tableau ci-dessous montre, par exemple, que pour la période du 19 au 26 juin 2025, les coefficients s'échelonnent de 70 900 : 1 pour Anthropic à 0,1 : 1 pour Mistral. Ces chiffres signifient que la plateforme IA Claude d'Anthropic a effectué près de 71 000 requêtes de page HTML pour chaque renvoi de page HTML, tandis que Mistral a envoyé dix fois plus de références que de requêtes d'indexation. (Le trafic renvoyé par l'application native de Claude n'inclut toutefois pas l'en-tête Referer:
. Nous pensons également qu'il en va de même pour le trafic généré par d'autres applications natives. De ce fait, comme les dénombrements de renvois ne comprennent que le trafic des outils web de ces fournisseurs, ces calculs peuvent surévaluer les coefficients respectifs, bien que le montant du dépassement reste à déterminer.)
Bien entendu, ces coefficients varient avec le temps, partiellement du fait des modifications apportées aux schémas d'exploration. Le tableau ci-dessus présente également l'évolution des coefficients par rapport à la période précédente, avec des fluctuations s'échelonnant d'une augmentation de plus de 6 % pour DuckDuckGo et Yandex à une baisse de 19,4 % pour Google. La baisse du coefficient de Google d'une semaine sur l'autre est due à la chute du trafic d'exploration de GoogleBot
observée à partir du 24 juin, tandis que la croissance de Yandex sur la même période est liée à l'augmentation de l'activité d'exploration de YandexBot
observée à partir du 21 juin, comme l'illustrent les graphiques ci-dessous.
Le service Data Explorer de Radar inclut une vue des séries chronologiques dépeignant la manière dont ces coefficients évoluent dans le temps, comme dans l'exemple Baidu ci-dessous. Les données des séries chronologiques sont également disponibles par le biais d'un point de terminaison d'API.
Tendances en matière de trafic de renvoi
Vous trouverez les changements et les tendances de l'activité sous-jacente dans la vue Data Explorer associée, ainsi que dans les données brutes disponibles par l'intermédiaire des points de terminaison d'API (séries chronologiques, récapitulatif). Veuillez noter que les parts de trafic de renvoi et d'indexation se réfèrent aux ensembles de référents et de robots d'indexation inclus dans les graphiques, pas au trafic Cloudflare dans sa globalité.
Ainsi, pour prendre un exemple, dans la vue ci-dessous centrée sur les référents et décrivant la situation pour la quasi-intégralité des quatre premières semaines de juin 2025, nous pouvons voir que le trafic de renvoi est dominé par la plateforme de recherche Google, les données présentant un schéma diurne assez constant avec suffisamment de clarté. (L'entrée google.*
couvre le trafic de renvoi provenant du site principal google.com ainsi que celui des sites locaux, comme google.es ou google.com.tw.) En raison du préchargement induit par l'utilisation de règles de spéculation, le trafic de renvoi provenant de l'ASN (Autonomous System Number, numéro de système autonome) de Google (AS15169) est spécifiquement exclu de l'analyse ici, car il ne représente pas la consommation active de contenu de la part des utilisateurs.
Des tendances diurnes évidentes sont également visibles dans les parts de requêtes de renvoi d'autres plateformes de recherche, bien que ces parts ne représentent qu'une fraction du nombre observé sur Google.
Tout au long du mois de juin, la part du trafic renvoyé par les plateformes IA s'est révélée considérablement plus faible, même de manière agrégée, que la part du trafic renvoyée par les plateformes de recherche.
Évolutions du trafic d'indexation
Comme nous l'avons vu plus haut, la variation au fil du temps des valeurs des coefficients peut résulter de fluctuations au sein de l'activité d'exploration. Ces évolutions sont visibles dans les parts de trafic d'exploration disponibles dans Data Explorer, ainsi que dans les données brutes disponibles par l'intermédiaire des points de terminaison d'API (séries chronologiques, récapitulatif). Dans la vue centrée sur les robots d'exploration ci-dessous, nous constatons que sur la quasi-intégralité des quatre premières semaines de juin 2025 la part des requêtes liées à l'activité d'exploration de Google diminue au fil du temps, à la fois pour les identifiants Googlebot
et GoogleOther
, avec plusieurs périodes de pics/creux. Cette baisse de l'activité d'exploration observée par nos services correspond à peu près à une tendance similaire observée au sein du trafic de requêtes HTTP issu de l'AS15169 de Google sur la même période.
Il semble également que le GPTBot
d'OpenAI ait connu plusieurs périodes sans activité d'exploration tout au long du mois.
Les implications pour les fournisseurs de contenu
Ces coefficients affectent directement la viabilité de la publication de contenus sur Internet. Malgré sa variabilité au fil du temps, lorsque ces facteurs sont comparés les uns aux autres, la tendance continue à s'accentuer, avec davantage d'indexations et moins de renvois. Les robots d'indexation d'ancienne génération analysent votre contenu plusieurs fois (ou moins) pour chaque visiteur redirigé. La disponibilité d'un site envers les robots d'indexation rend ainsi leur modèle de revenus plus viable (et non moins).
Les nouvelles données que nous observons suggèrent que la situation a changé. Ces modèles continuent à consommer de plus en plus de contenu, plus fréquemment, malgré l'envoi du même volume de trafic (voire moins) à la source de ce contenu.
Au cours de l'année passée, nous avons lancé de nouveaux outils conçus pour aider les propriétaires de sites à reprendre le contrôle. Les éditeurs peuvent ainsi bloquer, en un seul clic, les robots d'exploration IA qui utilisent leur contenu à des fins d'entraînement. Nous annonçons aujourd'hui de nouveaux moyens de rééquilibrer l'échange de valeur des deux côtés de l'équation. Toutefois, nous continuons à recommander aux créateurs de contenu de procéder à un audit, puis de mettre en place leurs politiques préférées concernant les bots d'exploration.
Encore une chose…
En plus de proposer ces nouvelles informations relatives au trafic d'exploration et de renvoi, ainsi que sur les tendances associées, nous avons également profité de l'occasion pour étendre le contenu consacré aux bots vérifiés. La page Bots de Cloudflare Radar comprend une liste paginée des bots vérifiés, qui affiche le nom, le propriétaire, la catégorie et le classement du bot (en fonction du volume de requêtes). Cette liste a désormais été étendue pour donner naissance à un répertoire autonome au sein d'une nouvelle section Bots. Comme illustré ci-dessous, le répertoire affiche, pour chaque bot vérifié, une carte reprenant son nom, sa description, son propriétaire, sa catégorie, ainsi que son statut en termes de vérification. Les utilisateurs peuvent non seulement effectuer des recherches dans le répertoire en fonction du nom, du propriétaire ou de la description du bot, mais ils peuvent également les filtrer par catégorie (en sélectionnant uniquement les bots de surveillance et analyse, par exemple).
Cliquez sur le nom d'un bot au sein d'une carte pour afficher la page spécifique à ce bot. Cette dernière comprend des métadonnées sur le bot, des informations sur la manière dont l'agent utilisateur du bot est représenté dans les en-têtes de requête HTTP et dont il doit être spécifié dans les directives du fichier robots.txt, ainsi qu'un graphique du trafic qui présente les tendances associées en matière de volume de requêtes HTTP pour la période sélectionnée (en les comparant par défaut avec la période précédente). Les données associées sont également disponibles par l'intermédiaire de l'API. Nous documenterons les mises à jour dans le journal des modifications lorsque nous ajouterons des informations supplémentaires aux pages spécifiques des bots.