订阅以接收新文章的通知:

在 AI 时代,为每位客户构建专属的高级机器人威胁防护

2025-09-23

10 分钟阅读时间
这篇博文也有 English 版本。

今天,我们正式推出一种全新的机器人捕获方案:通过智能模型提供特定于每位机器人管理客户行为异常检测,有效拦截复杂的机器人攻击。

通过这种针对每个客户的方法,我们为每位机器人管理客户提供高度个性化的安全功能,即使是最狡猾的机器人也能轻松拦截。我们不仅会在首次请求时做出判断,还会追踪那些长期在客户网站上持续执行不良行为的机器人的行为。我们希望分享这项服务的运作机制及重点方向。新平台能够支撑数十万套独特的检测方案,而我们从网站所有者那里清晰地听到了首要需求:保护网站免受日益猖獗的、AI 驱动的高级网页抓取行为的侵害。

新一轮攻防战:AI 驱动型爬虫的崛起

过去,对抗恶意机器人相对简单。攻击者使用的脚本往往带有明显的静态特征,通过固定的、可预测的信号就能轻松识别:比如缺少 User-Agent 标头的访问、格式错误的 HTTP 方法名,或是来自非标准端口的流量,这些都是恶意意图的明确标志。但随着互联网不断发展,情况发生了变化。当网站为创造更丰富的用户体验而变得更加动态化时,攻击者也随之升级了他们的工具。昔日的简单脚本已被无头浏览器和自动化框架所取代,这些工具不仅能渲染页面,还能以极高的保真度模拟人类交互行为。

AI 让这一切变得更加棘手。生成式 AI 的兴起从根本上改变了攻击者的能力和动机。如今的网络抓取已不仅限于竞争性价格情报或内容聚合,而是由大型语言模型 (LLM) 对训练数据的旺盛需求所驱动。

Cloudflare 的数据显示,这种转变极为显著。2025 年年中,以 AI 模型训练为目的的网络爬取行为在我们网络上的所有 AI 机器人活动中占比接近 80%,较上一年有大幅增长。如今的现代爬取工具本身就运用了 AI 技术。它们借助 LLM 来理解页面内容的语义,利用计算机视觉解决视觉难题,还采用强化学习来探索从未见过的复杂网站。这些机器人的演变,暴露出传统“一刀切”安全防护方式的严重漏洞。虽然全球威胁情报在阻止大规模攻击方面威力巨大,但这些新的 AI 爬取工具却旨在混入正常流量之中。它们可以通过住宅代理轮换 IP 地址,生成类似人类的用户代理,并模仿看似合理的浏览模式。与我们在 Cloudflare 网络上看到的数万亿条请求相比,这些机器人发出的请求可能看起来并无异常,但与特定网站上合法用户已有的行为模式相比,就会显得很异常。这意味着我们需要全方位构建针对这些机器人的防御体系——从全局视角到单个应用程序上的具体行为,无一遗漏。

全球可扩展的机器人指纹

为了锁定特定的知名机器人程序或机器人运营者,我们利用 Cloudflare 网络对数百万个网站上行为相似的机器人程序进行指纹识别。自 6 月以来,Cloudflare 的机器人检测安全分析师编写了 50 种启发式方法,以利用各种信号(包括但不限于 HTTP/2 指纹Client Hello 扩展)来捕获机器人。通过观察数百万个网站的流量,我们建立了常用浏览器和良性设备的合法指纹基线。当一个新的独特指纹突然出现在许多不同的网站上时,这往往是分布式僵尸网络或新型自动化工具的显著特征,我们的安全分析师可以此为依据,直接封禁该机器人的特征签名本身,从而一举瓦解整个攻击活动,即便该活动可能动用数千个不同的 IP 地址。

最近,我们还推出了检测改进,以应对住宅代理网络和类似的商业代理,攻击者会利用这些代理,使其机器人伪装成数千个不同的真实访客,从而绕过传统的安全措施。这项检测改进的强大之处是什么?在于我们将所掌握的海量网络数据,与通过互联网上每天发生的数百万次挑战验证所获取的特定客户端指纹信息相结合。对于想要在不损害实际用户体验的情况下保护其应用程序的客户来说,挑战一直是一种理想的缓解措施,但现在它还带来了一个额外的好处:在这种情况下,它为 Cloudflare 威胁检测团队源源不断地提供客户端信息,使我们能够通过模式匹配来确定哪些 IP 地址是由住宅代理网络所使用的。

此项检测改进已从整个 Cloudflare 网络中提取数据,自动为所有使用 Super Bot Fight 模式(Pro 计划、Business 计划和所有 Enterprise 计划客户均包含机器人防护功能)和 Enterprise Bot Management 的客户捕获更多恶意流量。通过分析本文发布前 7 天的数据,我们发现来自数百万个独立 IP 地址的 110 亿次请求与住宅或商业代理网络有关联。这只是全球检测体系中的一环;我们机器学习中现有的住宅代理检测功能已经能够每小时捕获数千万个请求

超个性化安全防护:了解专属于的正常行为模式

面对由 AI 驱动的机器人发起的新型军备竞赛,我们必须深入观察——需要更精准的应对策略。例如,某个脚本若系统性地爬取社交媒体网站上每一个用户资料,或是电子商务平台上的每一条商品列表,即便单个请求看似无害,这种行为从本质上讲对于该应用程序而言仍是异常的。这一认知正是我们新策略的核心所在:要在这一场新型军备竞赛中胜出,防御机制必须像其所对抗的攻击一样,具备高度定制化和自适应能力。

为应对这一挑战,我们构建了一个全新的基础平台,专为每位机器人管理客户部署定制的机器学习模型。我们为每个应用程序创建独特的防御机制。由于每个网站的流量不同,我们在每个区域标记为异常的流量也会有所不同。需要特别说明的是:在本系统中,我们绝不会将某个客户站点的数据用于训练其他客户的模型。

我们选择将其作为一项全新的平台能力发布,而非单一功能,这背后有着深思熟虑的考量。这与我们推出重大创新的一贯思路一脉相承——从 Cloudflare Workers 彻底改变开发者的应用构建方式,到 AI Gateway 为 AI 可观测性与安全性打造统一控制平面皆是如此。通过聚焦平台能力,我们不仅能解决客户当前面临的爬虫问题,更能为未来日益复杂的机器人攻击做好检测技术储备。

我们新一代的按客户定制的异常检测方案采用三步流程设计,其核心是通过先精准识别每个独立网站和 API 的正常流量特征,进而精准定位恶意行为。

第 1 步:建立动态基线

对于每个客户区域,我们的行为检测系统都会采集流量数据,以构建正常活动的基线。与传统静态快照式分析不同,我们的新平台通过持续摄入数据流,动态计算出每个特定网站“正常状态”的实时基准。这种方法能理解季节性流量规律,识别合法营销活动带来的流量峰值,并绘制出用户访问网站的典型路径。这种方法进一步发展了我们 Enterprise Bot Management 套件中已有的异常检测概念,但其应用范围更加精细,并且能够根据每个客户进行动态调整。

步骤 2:识别异常

一旦确立了“正常”行为的基准线,我们便开始真正的核心工作——识别异常行为。由于这个基准线是针对每个网站量身定制的,因此检测到的异常情况具有高度的情境相关性,甚至可能完全逃过全局系统的监测。为了深入说明这一点,我们可以分析几种不同类型的网站案例:

  • 对于游戏公司:正常的流量基线可能会显示数百万用户频繁、快速地向匹配服务或游戏内库存系统发出 API 调用。基于此基线训练的行为检测模型会立即标记出单个用户为了抓取整个玩家排行榜而进行缓慢、有条理、连续的 API 调用的行为。这种行为虽然数量较少,但与正常的游戏模式相比,显然是一种异常现象。

  • 以零售网站为例:正常用户行为通常表现为一个复杂的转化漏斗,先浏览商品分类,再查看具体产品,接着将心仪商品加入购物车,最后进入结算流程。而我们的检测系统会精准识别出这类异常行为:某个访问者以机械般的固定速率,按字母顺序逐页访问所有商品详情页,期间从未与购物车功能或会话 Cookie 产生任何交互——这是一个表明存在内容抓取的显著异常。

  • 对于媒体发布商:正常用户通常会阅读若干篇文章,点击站内链接跳转,并在每页停留可观测的时长。异常情况是,一个脚本每分钟访问数千篇文章的 URL,每个 URL 的访问时间不到一秒,纯粹是为了提取文本内容用于 AI 模型训练。

在每种情况下,恶意活动并非由通用特征来定义,而是通过其与应用程序独特且既定正常行为模式的偏离程度来判断

第三步:生成可执行的发现结果

检测异常只是成功的一半。机器人管理的强大之处在于它与您已在使用的 Cloudflare 安全生态系统无缝集成,从而将检测结果即时转化为可操作的结论。客户可以通过两种方式受益于这些行为检测改进:

  1. 新的机器人检测 ID:我们向企业客户推出了一组新的机器人检测 ID。网站所有者和安全团队可以编写 WAF 安全规则,根据这些检测标记的具体异常情况,对流量进行质询、限速或拦截。由于每种检测类型都对应唯一的 ID,客户能够清晰查看究竟是何种行为触发了异常标记,从而获得针对每条请求的详细恶意流量分析视角。为了获得更广阔的视野,客户可以从“安全分析”中按检测 ID 进行筛选,从而全面了解该检测类型捕获的所有流量。

  2. 提升机器人评分:这些全新定制化模型的另一关键输出,是直接动态调整请求的机器人评分。当请求被标记为异常行为时,其风险评分将相应下调,自动归入“疑似自动化”(评分 2-29)或“确认自动化”(评分 1)类别。这意味着基于机器人评分设置的现有 WAF 自定义规则将立即生效,无需任何配置变更即可提升对定制化攻击的防御效能。本次功能更新现已支持我们最新的帐户接管检测住宅代理检测以及近期推出的增强功能,未来还将应用于行为分析型爬虫检测。

我们的三步检测流程已在防范帐户接管攻击的行为检测中投入实战。以机器人检测 ID 201326598 为例:该方案 (1) 首先建立区域级基线,精准掌握特定网站的正常流量模式;(2) 继而分析异常登录失败行为,精准识别暴力破解和凭据填充攻击;(3) 最后通过自动调整机器人评分提供该检测 ID 的详细分析数据,帮助客户缓解此类攻击。

这一集成策略形成了良性循环效应:改进后的检测系统所提供的新情报,能即时提升现有产品(如 Super Bot Fight 模式、Bot Management 和 WAF)的价值,从而为您打造更强大的 Cloudflare 平台整体防护体系。

应对复杂的爬虫程序

我们要应对的第一个挑战是复杂的数据抓取。AI 驱动的数据抓取是当今网站所有者面临的最紧迫且发展最快的威胁之一,其自适应特性使其成为我们防御系统的理想对抗目标——因为这套系统正是为了应对不断变换战术的敌人而设计的。

我们改进的第一代行为检测功能经过专门调整,通过分析超越简单请求标头的信号来检测抓取行为。这些信号包括:

  • 行为分析:查看会话遍历路径、请求序列以及与动态页面元素的交互(或缺乏交互)。

  • 客户端指纹识别:分析来自客户端的细微信号,以识别自动化迹象,例如在客户特定流量基线中呈现的 JA4 指纹。

  • 内容无关检测:这些模型无需理解页面的具体内容,只需识别访问行为模式。这使得它们具备高度的可扩展性和效率,且无需依赖网站的独特内容即可做出判断。

这些反爬虫检测在实际应用中表现如何?我们通过封闭测试版的早期采用者验证了反爬虫逻辑,以获取真实可靠的一手反馈并优化检测机制。与任何理想的检测系统一样,我们的目标是尽可能拦截恶意流量,同时不影响正常网站访客的访问体验。仅观察 24 小时的数据,我们的新反爬虫检测就已拦截了数亿次请求,仅在我们 5 个早期测试区域就标记出了 1.38 亿次爬虫请求

当然,我们发现这与现有的机器人评分系统存在一定重叠,但数据清晰地表明,我们全新的行为检测方法具有全新的附加价值:通过新推出的抓取检测功能所标记的请求中,有 34% 是现有机器人评分系统未能发现的,这让我们更加迫切地希望将这些创新检测手段融入自动化评分机制中。

给互联网的生日礼物

我们的使命是构建更美好的互联网,这意味着,当我们开发强大的新防御措施时,我们坚信应该让每个人都能轻松访问它们。保护整个互联网免受新出现的、不断演变的威胁,需要提高每个人的安全底线。

本着这一精神,我们很高兴地宣布,升级版行为检测系统不仅将面向所有机器人管理客户全面推出,更将惠及使用全球 Super Bot Fight 模式的 Cloudflare 用户。对于我们的 Enterprise Bot Management 客户,我们会根据每个区域的精确流量自动调整检测。这些经过特定区域流量深度训练的先进模型,能够精准识别各类高隐蔽性攻击:从帐户接管、网页爬取,到通过住宅代理网络实施的其他攻击手段。而这,仅仅是我们行为特征分析技术的冰山一角。

未来道路

我们率先聚焦于抓取行为,这仅仅是一波全新行为式机器人检测浪潮的开端。我们构建的基础设施是一个灵活且强大的基础平台,可助力您应对网站上的各类恶意行为;建立针对每个客户的正常行为基线并检测异常情况的原则,同样适用于其他特定于应用程序逻辑的关键威胁,例如凭据填充攻击、库存囤积行为、信用卡欺诈攻击以及 API 滥用等。

我们正迈入一个通用防御措施已不再足够的时代。随着威胁变得越来越个性化,防御措施也必须更加完善,而铺就这条行为检测之路是我们为互联网奉献的最新礼物。我们首款抓取行为检测功能即将推出:客户将能够在其仪表板的安全概览页面中启用这项全新检测功能。

(我们始终在寻找充满热情的伙伴,携手对抗恶意机器人!若您也致力于共建更好的互联网,请查看我们的职位招聘信息。)

我们保护整个企业网络,帮助客户高效构建互联网规模的应用程序,加速任何网站或互联网应用程序抵御 DDoS 攻击,防止黑客入侵,并能协助您实现 Zero Trust 的过程

从任何设备访问 1.1.1.1,以开始使用我们的免费应用程序,帮助您更快、更安全地访问互联网。要进一步了解我们帮助构建更美好互联网的使命,请从这里开始。如果您正在寻找新的职业方向,请查看我们的空缺职位
生日周AI机器人Bot Management

在 X 上关注

Bob AminAzad|@imsilverfoxy
Cloudflare|@cloudflare

相关帖子

2025年10月29日 13:00

One IP address, many users: detecting CGNAT to reduce collateral effects

IPv4 scarcity drives widespread use of Carrier-Grade Network Address Translation, a practice in ISPs and mobile networks that places many users behind each IP address, along with their collected activity and volumes of traffic. We introduce the method we’ve developed to detect large-scale IP sharing globally and mitigate the issues that result. ...

2025年10月24日 17:10

How Cloudflare’s client-side security made the npm supply chain attack a non-event

A recent npm supply chain attack compromised 18 popular packages. This post explains how Cloudflare’s graph-based machine learning model, which analyzes 3.5 billion scripts daily, was built to detect and block exactly this kind of threat automatically....