Web 爬虫并非新鲜事物。万维网漫游者(World Wide Web Wanderer)于 1993 年问世,但真正使用爬虫和索引器的首批万维网搜索引擎是 JumpStation 和 WebCrawler。爬虫是互联网成功支柱之一 —— 搜索 —— 的组成部分。其主要目的是为互联网上的网站内容建立索引,以便这些网站能出现在搜索引擎结果,并适当地引导用户前往网站。在本篇博客文章中,我们将分析 Web 爬虫的最新趋势。随着 AI 兴起,Web 爬虫如今已扮演着关键且复杂的全新角色。
并非所有爬虫都是相同的。机器人(即在互联网上执行任务的自动化脚本)有多种形式:有些被认为是无威胁或“好”的(例如 API 客户端、Googlebot 之类的搜索引擎索引机器人或健康检查程序),而有些则被视为恶意或“坏”的(例如用于凭据填充、垃圾邮件或未经许可抓取内容的机器人)。事实上,根据Cloudflare Radar 数据,如今大约 30%的全球 Web 流量来自机器人,在某些地区甚至超过了人类的互联网流量。
近年来,一个新的类别 “AI 爬虫” 已然兴起。这些机器人从整个 Web 收集数据以训练 AI 模型,在优化工具与体验的同时,也引发了内容权利、未经授权使用及基础设施过载等问题。我们旨在确认搜索爬虫和 AI 爬虫的增长情况,审视特定 AI 爬虫,并了解更广泛的爬虫使用情况。
随着 AI 的快速采用、内容版权问题日益增多以及数据隐私讨论的增加,这一点变得越来越重要。一些网站和创作者希望使用 robots.txt
或 防火墙规则等工具来限制或阻止 AI 爬虫。其他人士,如荷兰独立创作者兼企业家 Pieter Levels,则持接纳态度:“我完全不介意 AI 爬虫…… 这对在大型语言模型(LLM)中获得排名至关重要。”
需要注意的是,爬虫有不同的用途。例如,facebookexternalhit
机器人未纳入本分析,因为它用于 Facebook 在为共享链接生成预览时抓取页面内容。然而,在本文中,我们仅关注索引和抓取网站内容的 AI 和搜索爬虫。
仅限 AI 爬虫的视角
我们从Cloudflare Radar 上目前提供的仅 AI 爬虫视角开始,专注于宣传为 AI 相关的爬虫。为了识别它们,我们在此使用源自一个开源项目的列表,该项目帮助网站所有者管理和控制 AI 爬虫的访问,特别是那些用于训练大型语言模型(LLM)的爬虫。它还为您提供关于在 robots.txt
文件中应包含哪些内容的指导(下文将详细介绍)。下面显示的数据是基于将爬虫名称与 HTTP 请求中的用户代理字符串进行匹配而得。(有关此方法的更多详细信息,包括一个例外情况,请参阅博客文章的末尾。)
在 2024 年 5 月至 2025 年 5 月期间,AI 爬虫格局发生了重大变化:您可以看到来自 GPTBot
(来自 OpenAI)崛起为主要力量,其占比从 5% 飙升至 30%;而 Meta-ExternalAgent
(来自 Meta)作为新入局者表现强劲,占比达 19%。以上增长的代价是前领导者 Bytespider
的占比从 42% 大幅下降至 7%,而 ClaudeBot
和 Amazonbot
等其他 AI 爬虫的流量也有所下降。我们的数据清晰表明,头部 AI 爬虫的格局已重新洗牌,这凸显出 OpenAI 和 Meta 在该领域的地位日益重要。
2024 年 5 月
2025 年 5 月
排名 | 机器人名称 | 占比 (2024 年 5 月) | 排名 | 机器人名称 | 占比 (2025 年 5 月) |
1 | Bytespider | 42% | 1 | GPTBot | 30% |
2 | ClaudeBot | 27% | 2 | ClaudeBot | 21% |
3 | Amazonbot | 21% | 3 | Meta-ExternalAgent | 19% |
4 | GPTBot | 5% | 4 | Amazonbot | 11% |
5 | Applebot | 4.1% | 5 | Bytespider | 7.2% |
排名 | 机器人名称 | 占比 (2024 年 5 月) | 排名 | 机器人名称 | 占比 (2025 年 5 月) |
---|---|---|---|---|---|
1 | Bytespider | 42% | 1 | GPTBot | 30% |
2 | ClaudeBot | 27% | 2 | ClaudeBot | 21% |
3 | Amazonbot | 21% | 3 | Meta-ExternalAgent | 19% |
4 | GPTBot | 5% | 4 | Amazonbot | 11% |
5 | Applebot | 4.1% | 5 | Bytespider | 7.2% |
为了提供更多背景信息,下方列表为上述爬取份额较高的机器人显示更多信息。这些信息来自上述相同的开源列表,以及OpenAI等公司的出版物,这些公司解释了其爬虫的使用方法。
GPTBot – OpenAI 的爬虫,用于改进和训练大型语言模型,例如 ChatGPT。
ClaudeBot – Anthropic 的爬虫,用于训练和更新 Claude AI 助手。
Meta-ExternalAgent – Meta 的机器人,可能用于收集数据,以训练或微调 LLM。
Amazonbot – Amazon 的爬虫,用于为其搜索和 AI 应用收集数据。
Bytespider – 字节跳动的 AI 数据收集器,通常与 Ernie 或 TikTok 相关 AI 等训练模型相关联。
Applebot – Apple 的 Web 爬虫,主要用于 Siri 和 Spotlight 搜索,可能用于 AI 开发。
OAI-SearchBot – OpenAI 专注于搜索的爬虫,可能用于为模型检索实时 Web 信息。
ChatGPT-User – 代表与用户交互相关的 ChatGPT API 调用或浏览器使用行为。
PerplexityBot – 来自 Perplexity.ai 的爬虫,使用实时 Web 数据驱动其 AI 应答引擎。
网站管理员可以通过在robots.txt
文件中设置规则,告知爬虫运营者是否允许这些机器人和爬虫访问您的网站内容,让爬虫知道哪些页面它们应该或不应该访问。如我们近期所见,爬虫遵守您的 robots.txt
策略属于自愿行为,但 Cloudflare 已推出 AI Audit 之类的工具,帮助内容创作者强制实施相关策略。
正如我们所见,随着搜索引擎和 AI 角色的融合,Web 爬虫的格局正在迅速演变。AI 现在已深度集成到搜索中,不仅体现在 Google 的 AI 概览和 AI 模式中,也体现在社交媒体平台中,例如 Instagram 上的 Meta AI。因此,让我们扩大分析范围,以涵盖这些更广泛的 AI 驱动爬取活动。
通用 AI 和搜索爬取活动增长:+18%
从更广泛的视角来看,2025 年初几个月,搜索爬虫和 AI 爬虫的爬取流量都呈现增长。为了消除客户增长偏差,我们将使用特定几周内的一组固定客户来分析趋势(我们在 Cloudflare Radar 年度回顾 中使用过的方法):2024 年 5 月的第一周、2024 年 11 月的一周,以及 2025 年 4 月的第一周。
使用该方法,我们发现从 2024 年 5 月至 2025 年 5 月(比较整月期间),AI 和搜索爬虫的流量增长了 18%。在包括这段时间增加的 Cloudflare 新客户时,增幅甚至更高,达到 48%。AI 和搜索爬取流量的峰值出现在 2025 年 4 月,比 2024 年 5 月增长了 32%。这证实了爬取流量在过去一年中显著增加,但也表明增长并不总是稳定的。Google 仍然是市场的主导者,其市场份额也在增长,我们将在下一节中看到这一点。
如下图所示,爬取流量在 2025 年 3 月和 4 月急剧增长,并在 5 月维持高位,尽管略有下降。
上述抓取流量图表中的模式似乎也反映了更广泛的季节性规律及普遍的互联网用户流量规律。2024 年夏季,北半球的流量有所下降,其中 8 月和 9 月为活跃度最低的月份。与整体互联网流量类似,流量随后在 11 月有所回升。正如我们在过往分析中所见,由于购物及季节性习惯,人们通常在 11 月更频繁地上网。
Googlebot 爬取活动在一年内增长了 96%
在此期间,为 Google 搜索内容建立索引的 Googlebot
显然是最主要的爬虫,并且显示出强劲增长,从 2024 年 5 月到 2025 年 5 月增长了 96%,这反映了 Google 爬取活动的增加。爬取流量在 2025 年 4 月达到峰值,比 2024 年 5 月高出 145%。同样值得一提的是,Google 在此期间对其搜索进行了更改,并在其搜索引擎中推出了 AI 概览——首先于 2024 年 5 月在美国推出,随后在更多国家推出。
从 Google 相关爬虫的日常数据来看,有两个趋势尤为明显,如下图所示。首先,Googlebot
和更新的 GoogleOther
(2023 年推出,用于“研究与开发”的 Web 爬虫)占 Google 爬取活动的大部分。其次,爬取流量有两次明显下降:一次是 2024 年 12 月 14 日(在一次 Google 搜索更新前后),另一次是 2025 年 5 月 20 日至 28 日。5 月 20 日的下降与 Google 搜索在美国推出 AI 模式的时间大致重合,尽管时间可能纯属巧合。
前二十名 AI 和搜索 Web 爬虫的详细分析
按请求总量占比对爬虫进行排名,能更清晰地呈现哪些机器人正在崛起或衰落,尤其是在专注于搜索和 AI 领域的爬虫中。下表显示了一个清晰的趋势:部分 AI 机器人自去年起(甚至更早便已开始)快速增长,而许多传统搜索爬虫的份额则保持平稳或有所下降(例如必应及其 Bingbot
爬虫)。主要的例外是 Googlebot
。
下表显示了 Cloudflare 在 2024 年 5 月和 2025 年 5 月观察到的特定爬虫群组(包含 30 多个 AI 和搜索爬虫)生成的所有爬取流量中每个爬虫的百分比份额。下表还包括百分比变化以及原始请求量的增长或下降。2025 年 5 月爬虫的活动流量占比。主要爬虫流量变化包括 GPTBot
大幅上升(+305%),而 Bytespider
大幅下降(-85%)。
排名 | 机器人名称 | 占比 2024 年 5 月 | 占比 2025 年 5 月 | Δ 百分点变化 | 原始请求增长(2024 年 5 月至 2025 年 5 月) |
1 | Googlebot | 30% | 50% | +20 个百分点 | 96% |
2 | Bingbot | 10% | 8.7% | 下降 1.3 个百分点 | 2% |
3 | GPTBot | 2.2% | 7.7% | +5.5% | 305% |
4 | ClaudeBot | 11.7% | 5.4% | 下降 6.3 个百分点 | -46% |
5 | GoogleOther | 4.4% | 4.3% | -0.1 个百分点 | 14% |
6 | Amazonbot | 7.6% | 4.2% | -3.4 个百分点 | -35% |
7 | Googlebot-Image | 4.5% | 3.3% | 下降 1.2 个百分点 | -13% |
8 | Bytespider | 22.8% | 2.9% | 下降 19.8 个百分点 | -85% |
9 | Yandex | 2.8% | 2.2% | -0.7 个百分点 | -10% |
10 | ChatGPT 用户 | 0.1% | 1.3% | +1.2 个百分点 | 2,825% |
11 | Applebot | 1.9% | 1.2% | -0.7 个百分点 | -26% |
12 | Timpibot | 0.3% | 0.6% | +0.3 个百分点 | 133% |
13 | Baiduspider | 0.5% | 0.4% | -0.1 个百分点 | 7% |
14 | PerplexityBot | <0.01% | 0.2% | +0.2 个百分点 | 157,490% |
15 | DuckDuckBot | 0.2% | 0.1% | -0.1 个百分点 | -16% |
16 | SeznamBot | 0.1% | 0.1% |
| 2% |
17 | Yeti | 0.1% | 0.1% |
| 47% |
18 | coccocbot | 0.1% | 0.1% |
| -3% |
19 | Sogou | 0.1% | 0.1% |
| -22% |
20 | Yahoo! Slurp | 0.1% | 0.0% | -0.1 个百分点 | -8% |
排名 | 机器人名称 | 占比(2024 年 5 月) | 占比(2025 年 5 月) | Δ 百分点变化 | 原始请求增长(2024 年 5 月至 2025 年 5 月) |
---|---|---|---|---|---|
1 | Googlebot | 30% | 50% | +20 个百分点 | 96% |
2 | Bingbot | 10% | 8.7% | 下降 1.3 个百分点 | 2% |
3 | GPTBot | 2.2% | 7.7% | +5.5% | 305% |
4 | ClaudeBot | 11.7% | 5.4% | 下降 6.3 个百分点 | -46% |
5 | GoogleOther | 4.4% | 4.3% | -0.1 个百分点 | 14% |
6 | Amazonbot | 7.6% | 4.2% | -3.4 个百分点 | -35% |
7 | Googlebot-Image | 4.5% | 3.3% | 下降 1.2 个百分点 | -13% |
8 | Bytespider | 22.8% | 2.9% | 下降 19.8 个百分点 | -85% |
9 | Yandex | 2.8% | 2.2% | -0.7 个百分点 | -10% |
10 | ChatGPT 用户 | 0.1% | 1.3% | +1.2 个百分点 | 2,825% |
11 | Applebot | 1.9% | 1.2% | -0.7 个百分点 | -26% |
12 | Timpibot | 0.3% | 0.6% | +0.3 个百分点 | 133% |
13 | Baiduspider | 0.5% | 0.4% | -0.1 个百分点 | 7% |
14 | PerplexityBot | <0.01% | 0.2% | +0.2 个百分点 | 157,490% |
15 | DuckDuckBot | 0.2% | 0.1% | -0.1 个百分点 | -16% |
16 | SeznamBot | 0.1% | 0.1% | 2% | |
17 | Yeti | 0.1% | 0.1% | 47% | |
18 | coccocbot | 0.1% | 0.1% | -3% | |
19 | Sogou | 0.1% | 0.1% | -22% | |
20 | Yahoo! Slurp | 0.1% | 0.0% | -0.1 个百分点 | -8% |
根据这些数据,2024 年 5 月至 2025 年 5 月期间 Web 爬取活动发生了两个重大变化:
1. 部分 AI 爬虫流量激增。
GPTBot
(来自 OpenAI)的份额从 2.2% 增长至 7.7%(+5.5 个百分点),请求数量增加了 305%。这凸显了训练 ChatGPT 等大型语言模型的数据需求。GPTBot
从 2024 年 5 月的第 9 位跃升至 2025 年 5 月的第 3 位。
另一个 OpenAI 爬虫 ChatGPT-User
的请求激增了 2825%,份额达到 1.3%。这反映出 ChatGPT 用户活动或基于 API 的交互(涉及访问 Web 内容)大幅增加。PerplexityBot
(来自 Perplexity.ai)尽管占比仅为 0.2%,但录得最高的增长率:原始请求增长了惊人的 157490%。
与此同时,一些 AI 爬虫流量录得急剧下降。ClaudeBot
(Anthropic) 占总流量的比例从 11.7% 下降到 5.4%,请求数减少 46%。Bytespider
的请求量下降了 85%,在爬虫中的占比从第 2 位下降到第 8 位(现在仅为 2.9%)。
同样被纳入 AI 爬虫之列的 Amazonbot
和 Applebot
的份额和原始请求数量均有所下降(分别下降 35% 和 26%)。
2. Google 的主导地位扩大。
Googlebot
的份额从 30% 上升到 50%,支持搜索索引,但也可能具有 AI 相关目的(例如 Google 搜索中的新 AI 概览)。GoogleOther
(2023 年推出的爬虫)的爬取流量也有所增长,达到 14%。其他未进入前 20 名的 Google 爬虫(例如 Googlebot-News
)也大幅增长(请求量 +71%)。在公司大力投资将 AI 与搜索结合之际,这些与 Google 相关的 Web 爬虫呈现出明显的增长趋势。
同样在搜索类别,Bingbot
(来自 Microsoft)的份额略有下降,从 10% 至 8.7%(-1.3 个百分点),但其原始请求数仍小幅增长了 2%。
这些趋势表明,Web 爬虫正日益被来自 Google 和 OpenAI 的机器人主导,反映了一年间的明显变化。Google 似乎也在调整其收集数据的方式,以支持传统搜索和 AI 驱动的功能。
同样值得注意的是 FriendlyCrawler
,截至 2025 年 5 月,它不再出现在前 20 榜单中(目前排名第 35 位)。2024 年 5 月,它的排名是第 14 位,市场份额为 0.2%,但到 2025 年 5 月,请求量下降了 100%。众所周知,这种机器人会对网站内容进行索引和分析,但其所有者和目的仍不清楚。通常,这类爬虫用于改进搜索结果、市场调研或数据分析。
robots.txt 和 AI 机器人:GPTBot 两次领先
Cloudflare Radar 截至 2025 年 6 月 6 日的数据显示,在我们能够找到 robots.txt 文件的 3,816 个域中(前 10,000 个),有 546 个(约 14%)个域的 robots.txt 文件包含针对 AI 机器人的“允许”或“禁止”(全部或部分)指令。
这让许多网站所有者处于一个灰色区域,因为并不总是清楚 robots.txt 在管理 AI 爬虫方面的效果。一些网站所有者可能不会想到专门针对 AI 机器人使用它,而另一些人可能不确定这些机器人是否会遵守 robots.txt 规则,尤其是较新或透明度较低的爬虫。在其他情况下,网站会使用部分规则进行访问微调,尝试在不完全选择加入或退出的情况下平衡可见性与保护。
“禁止”规则出现的频率远高于“允许”规则。最常被阻止的机器人是 GPTBot
,被 312 个域(250 个完全,62 个部分)禁止,其次是 CCBot
和 Google-Extending
,如下图所示。
尽管 GPTBot
被阻止最多,但它也是最被明确允许的,有 61 个域授予访问权限(18 个完全,43 个部分)。尽管如此,公开且明确允许 AI 机器人访问的网站仍寥寥无几,即便允许,通常也仅针对有限的部分。请注意,站点的 robots.txt 中未列出的机器人默认情况下是被允许的。
随着 AI 爬取活动增加,越来越多网站正在从 robots.txt 等被动保护措施转向 Web 应用防火墙 等主动保护。生态系统正在发生变化,越来越注重可执行的控制措施。
注意:在分析爬虫流量时,我们将 robots.txt 文件中找到的用户代理令牌(如 AI 爬虫的用户代理)与 HTTP 请求中的实际用户代理字符串进行比较。值得注意的是,某些 robots.txt 令牌(例如 Google-Extended)不是用户代理子字符串。如 RFC 9309 中所述,这些令牌的一个目标可能是表明爬虫的用途。例如,Google 在 robots.txt 中使用 Google-Extended 来查看您的内容是否可用于 AI 训练,但流量本身仍来自标准的 Google 用户代理,例如 Googlebot。因此,并非每个 robots.txt 条目在 HTTP 请求日志中都会有直接匹配。
总结
随着 AI 爬虫重塑互联网,网站在管理其在线存在时既面临新的挑战,也迎来新的机遇。
本分析凸显了 AI 对 Web 爬虫的影响与日俱增,表明其已从传统的搜索索引明确转向为训练 AI 模型进行数据收集。详细统计数据,例如 Googlebot 的持续增长和 AI 爬虫的快速崛起,为理解该领域的发展及其对未来 Web 内容访问的影响提供了背景。
目前的趋势是采用更强大、可执行的屏蔽方法,Cloudflare 也有参与其中,标志着未来网站控制与 AI 系统交互的方式将发生关键转变。