订阅以接收新文章的通知:

内容爬取活动增加但引用流量下降:AI 对内容提供者的影响

2025-07-01

7 分钟阅读时间
这篇博文也有 EnglishFrançaisDeutsch日本語한국어EspañolNederlands繁體中文版本。

内容发布者欢迎来自搜索引擎的爬虫和机器人,因为它们有助于为站点带来流量。爬虫会查看网站上发布的内容,并将这些内容呈现给搜索相关信息的用户。网站所有者可以实现内容变现,因为用户仍然需要点击进入页面才能访问短标题以外的内容。

人工智能(AI) 机器人也会抓取网站内容,但交付模式完全不同。这些大语言模型(LLM)尽其所能读取互联网内容以训练一个系统,重新组织内容并提供给用户,而用户无需访问原始内容。

AI 应用可能仍会尝试引用内容,但我们发现,相对于 AI 机器人抓取给定网站的频率而言,真正点击以浏览网站的用户非常少。我们已经在小范围内讨论了这一挑战,今天我们很高兴将有关研究结果发布为 一个新指标,显示在 Cloudflare Radar 的 AI 洞察页面上

Cloudflare Radar 的访问者现在可以查看特定 AI 模型向站点发送流量的频率占其爬取该站点频率的比率。我们将此分析分享给广泛的受众,以便网站所有者能够获得更完善的信息,帮助他们决定允许或阻止哪些 AI 机器人,同时也让用户理解 AI 的整体使用如何影响互联网流量。

这一测量是如何进行的?

由于 HTML 页面可以说是对这些爬虫最有价值的内容,因此显示的比率是通过将来自特定搜索或 AI 平台相关用户代理(响应类型为 Content-type: text/html )的请求总数除以 Referer header 包含该搜索或 AI 平台相关主机名的 HTML 内容的请求总数而计算得出。

下图说明了两种常见的爬取场景,并显示公司可能会根据爬虫的目的而使用不同的用户代理。上方图代表一个简单的事务,其中示例 AI 平台为训练一个 LLM 而请求内容,其本身标记为 AIBot 。下方图表示一个场景,其中示例 AI 平台请求内容以满足一个用户请求——查找航班信息。在本例中,它将自己表示为 AIBot-User 。为便于我们分析,来自这两个用户代理的请求流量将汇总在一个平台名称下。

当用户在网站或应用上点击链接时,客户端通常会将一个 Referer: header 作为请求的一部分发送到目标站点。下图示例中,AI 平台响应用户交互返回了包含指向外部站点链接的内容。当用户点击链接时,会向内容提供者发送请求, ai.example.com 将包含在 Referer: header 中,从而让他们知道该请求流量的来源。为便于分析,主机名会与其各自的平台相关联。下图示例中,AI 平台响应用户交互返回了包含指向外部站点链接的内容。当用户点击链接时,会向内容提供者发送请求, ai.example.com 将包含在 Referer: header 中,从而让他们知道该请求流量的来源。为便于分析,主机名会与其各自的平台相关联。

观察结果

查看比例

新指标以简单表格的形式提供,将来自特定平台爬虫(用户代理)的 HTML 页面请求总数,与来自特定平台主机名引用的客户端的 HTML 页面请求数量进行比较。计算得出的比率始终基于单一引用请求进行标准化。

下表显示,在 2025 年 5 月 19 日至 26 日期间,比率范围从 Anthropic 的 70900:1 到 Mistral 的 0.25:1。这意味着对于 Anthropic 的 AI 平台的每一个 HTML 页面引用,其发出了 71000 个 HTML 页面请求,而 Mistral 发送的引用请求是爬取请求的 10 倍。(不过,Claude 的原生应用所引用的流量不包含 Referer: header,我们认为其他原生应用所产生的流量也同样如此。因此,由于引用计数仅包括这些提供商的 Web 工具产生的流量,这些计算可能高估了各自的比率,但具体高估了多少并不清楚。)

当然,由于爬取模式的变化,这些比率将随着时间的推移而变化。上表还显示与前一阶段相比的比率变化,变化范围从 DuckDuckGo 和 Yandex 增长超过 6%,到 Google 下降 19.4%。Google 比率环比下降与观察到的 GoogleBot 爬取流量自 6 月 24 日开始下降有关,而 Yandex 环比增长与观察到的 YandexBot 爬取活动自 6 月 21 日开始增加有关。如下图所示。

Radar 的 Data Explorer 包含一个时间序列视图,显示这些比率如何随时间变化,例如下面百度的示例。时间序列数据也可以通过一个API 端点获得

引用流量模式

基础活动的变化和趋势可以在相关 Data Explorer 视图中查看,也可以在通过 API 端点(timeseriessummary )获得的原始数据中看到。引用流量和爬取流量的比率均为相对于图中包含的引用者和爬虫的集合,而非 Cloudflare 的整体流量。

例如,下面以引用来源为中心的视图中(几乎覆盖了 2025 年 6 月的前四周),我们可以看到,引用流量主要由搜索平台 Google 主导,数据中可以看到相当一致的日间模式。(google.*条目涵盖了来自 google.com 主站点以及本地站点(例如 google.esgoogle.com.tw)的引荐流量。)由于使用预测规则驱动的预取,来自 Google 的自治系统编号 (AS15169) 的引荐流量并不代表内容的活跃用户消费,因而在此明确排除在分析之外。

在其他搜索平台的引用请求占比中,也可以看到明显的日间模式,尽管其请求份额仅为 Google 的一小部分。

整个 5 月,即使总体而言,AI 平台引用流量的占比也显著低于搜索平台引用流量占比。

爬取流量的变化

如上所述,比率值随时间发生的变化可能是由爬取活动的变化驱动的。这些变化可在 Data Explorer 中提供的爬取流量份额中查看,也体现在通过 API 端点提供的原始数据(timeseriessummary)中。在下面以爬虫为中心的视图中(几乎覆盖 2025 年 6 月的前 4 周),我们可以看到,就 Googlebot GoogleOther 这两种标识符而言,Google 爬取活动相关的请求占比在当月期间呈下降趋势,且出现了若干个高峰/低谷周期。在同一时间段内,在来自 Google 的 AS15169 的 HTTP 请求流量中观察到类似模式,与上述观察到的占比下降大致吻合。

此外,OpenAI 的GPTBot在该月期间似乎出现了多个几乎没有爬取活动的时段。

这对内容提供商意味着什么

这些比率直接影响互联网内容发布的可行性。虽然会随时间而变化,但相对而言,爬取活动增长与引用减少的趋势在持续。对于发送的每一个访问者,传统搜索索引爬虫都会对您的内容扫描几次或更少。网站对爬虫的可用性使其收入模式变得更加可行,而非反之。

我们观察到的新数据表明,情况不再如此。这些模型继续更频繁地消费更多内容,但发送到内容源的流量维持不变或减少了。

过去一年来,我们推出了全新工具,帮助网站所有者重新掌握控制权。内容发布者可一键阻止使用其数据进行训练的 AI 爬虫。今天,我们宣布了使价值交换对等式双方公平的新方法。但我们继续建议内容创作者针对 AI 爬虫进行审核,然后执行其首选策略。

还有一件事……

除了提供这些关于爬虫、引用流量及相关趋势的新洞察外,我们还借此机会推出了扩展版的 “已验证机器人” 内容。Cloudflare Radar 上的机器人页面包括一个已验证机器人的分页列表,显示机器人名称、所有者、类别和排名(基于请求量)。此列表现已扩展为全新 “机器人” 版块中的独立目录。目录如下图所示,为每个已验证机器人显示一张卡片,卡片上会展示机器人名称、说明、机器人所有者及类别,以及验证状态。用户可以按机器人名称、所有者或描述搜索目录,也可以按类别过滤(例如,仅选择监控和分析机器人)。

点击卡片中的机器人名称将打开专属页面,其中包含该机器人的元数据、其用户代理在 HTTP 请求标头 中的表示方式、在 robots.txt 指令 中的指定方法,以及显示所选时间段内相关 HTTP 请求量趋势的流量图(默认与前一时间段进行对比)。相关数据也可通过 API 获得。未来我们向这些机器人专属页面添加额外信息时,会在 更新日志条目中记录相关更新。

我们保护整个企业网络,帮助客户高效构建互联网规模的应用程序,加速任何网站或互联网应用程序抵御 DDoS 攻击,防止黑客入侵,并能协助您实现 Zero Trust 的过程

从任何设备访问 1.1.1.1,以开始使用我们的免费应用程序,帮助您更快、更安全地访问互联网。要进一步了解我们帮助构建更美好互联网的使命,请从这里开始。如果您正在寻找新的职业方向,请查看我们的空缺职位
按抓取付费Radar互联网流量AI机器人

在 X 上关注

David Belson|@dbelson
Cloudflare|@cloudflare

相关帖子

2025年10月29日 13:00

One IP address, many users: detecting CGNAT to reduce collateral effects

IPv4 scarcity drives widespread use of Carrier-Grade Network Address Translation, a practice in ISPs and mobile networks that places many users behind each IP address, along with their collected activity and volumes of traffic. We introduce the method we’ve developed to detect large-scale IP sharing globally and mitigate the issues that result. ...