订阅以接收新文章的通知:

机器人警察:强制执行您的 robots.txt 策略,并在机器人到达您的网站之前加以阻止

2024-12-10

3 分钟阅读时间
这篇博文也有 English繁體中文版本。

通过 Cloudflare 的 AI 审核仪表板,您可以轻松了解 AI 公司和服务如何访问您的内容。AI 审核提供按机器人细分的请求计数摘要、详细的路径摘要(以获得更精细的见解),以及按 AI 搜索AI 爬网程序等类别进行过滤的能力。

今天,我们将更进一步。现在,您可以快速查看哪些 AI 服务遵守您的 robots.txt 策略,哪些没有,然后以编程方式强制执行这些策略。 

什么是 robots.txt?

Robots.txt 是托管在您的域上的纯文本文件,它实施机器人排除协议,该协议是自 1994 年以来就已存在的标准。此文件告诉 Google、Bing 和许多其他爬网程序,它们被允许访问您网站的哪些部分(如果有)。 

网站所有者想要定义允许爬网程序访问其网站的哪些部分,这样做的原因有很多:他们可能不希望某些内容在搜索引擎或社交网络上可用,他们可能对一个平台的信任程度高于另一个平台,或者他们可能只是想要以减少到达其服务器的自动化流量。

随着生成式 AI 出现,AI 服务已经开始爬行互联网来收集模型的训练数据。这些模型通常是专有的和商业的,用于生成新的内容。除了传统的搜索引擎外,许多想要控制其内容使用方式的内容创作者和发布者也开始使用 robots.txt 来声明涵盖这些 AI 机器人的策略。

以下是一个顶级在线新闻网站的 robots.txt 策略的简短真实示例:

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

此策略声明该新闻网站不希望 ChatGPT、Anthropic AI、Google Gemini 或 ByteDance 的 Bytespider 抓取其任何内容。

从自愿合规到强制执行

在过去,遵守《机器人排除协议》一直是自愿行为。 

这就是我们新功能的用武之地了。我们扩展了 AI 审核,让客户既能了解 AI 服务提供商对其 robots.txt 策略的遵守情况,可以在 WAF 的网络级别强制执行这些策略。 

您的 robots.txt 文件声明了您的策略,而现在我们可以帮助您强制实施该策略。您甚至可以称它为您的机器人警察。  

工作方式

AI 审核从您的 Web 内容中获取 robots.txt 文件,对其进行解析,然后将其规则与我们看到的所选内容的 AI 机器人流量进行比对。摘要表为您提供了我们在所有路径上看到的每个机器人的请求和违规数量的汇总视图。如果将鼠标悬停在 Robots.txt 列上,我们将在工具提示中显示为每个机器人定义的策略。您也可以在页面顶部按违规行为进行过滤。 

BLOG-2619 2

在“最受欢迎的路径”部分,每当您网站中的某个路径收到违反策略的流量时,我们就会进行标记,以方便查看。理想情况下,您不会在 Robots.txt 列中看到违规行为——如果看到,则表明有人违反了策略。

BLOG-2619 3

但这还不是全部……更重要的是,AI 审核允许您在网络级别执行 robots.txt 策略。通过按下摘要表顶部的“强制执行 robots.txt 规则”按钮,我们会自动将您的 robots.txt 中为 AI 机器人定义的规则转换为高级防火墙规则,将您重定向到 WAF 配置屏幕,并允许您在我们的网络中部署该规则。

这是上述 robots.txt 策略转换后的样子:

BLOG-2619 4

一旦您部署了根据 robots.txt 策略构建的 WAF 规则,您就不再只是要求 AI 服务遵守您的策略,而是强制执行它。

总结

通过 AI 审核,我们让客户能够更好地了解 AI 服务如何访问其内容,帮助他们定义策略,然后在网络级别强制执行。

此功能现已对所有 Cloudflare 客户开放。只需登录仪表板并导航到您的域,即可开始审核来自 AI 服务的机器人流量并强制执行您的 robots.txt 指令。

我们保护整个企业网络,帮助客户高效构建互联网规模的应用程序,加速任何网站或互联网应用程序抵御 DDoS 攻击,防止黑客入侵,并能协助您实现 Zero Trust 的过程

从任何设备访问 1.1.1.1,以开始使用我们的免费应用程序,帮助您更快、更安全地访问互联网。要进一步了解我们帮助构建更美好互联网的使命,请从这里开始。如果您正在寻找新的职业方向,请查看我们的空缺职位
AI网络服务应用程序服务security.txt

在 X 上关注

Celso Martinho|@celso
Will Allen|@williamallen
Cloudflare|@cloudflare

相关帖子

2025年10月29日 13:00

One IP address, many users: detecting CGNAT to reduce collateral effects

IPv4 scarcity drives widespread use of Carrier-Grade Network Address Translation, a practice in ISPs and mobile networks that places many users behind each IP address, along with their collected activity and volumes of traffic. We introduce the method we’ve developed to detect large-scale IP sharing globally and mitigate the issues that result. ...

2025年10月24日 17:10

How Cloudflare’s client-side security made the npm supply chain attack a non-event

A recent npm supply chain attack compromised 18 popular packages. This post explains how Cloudflare’s graph-based machine learning model, which analyzes 3.5 billion scripts daily, was built to detect and block exactly this kind of threat automatically....