订阅以接收新文章的通知:

面向所有客户的 AI Index

2025-09-26

6 分钟阅读时间
这篇博文也有 English 版本。

今天,我们正式宣布推出适用于 Cloudflare 域名的 AI Index 私有测试版。这是一种全新的 Web 索引,为内容创作者提供工具,让他们的数据能被 AI 发现,同时也让 AI 开发者能取得更高品质的数据,并确保公平的报酬机制。

在您的域名上启用 AI Index 后,我们将自动为您的网站创建一个 AI 优化的搜索索引,并提供一套即用型标准 API 和工具,包括 MCP 服务器、LLMs.txt 和搜索 API。我们的客户将拥有并控制该索引及其使用方式,并且您可以通过按抓取付费和新的 x402 集成实现访问变现。您可以使用它在您自己的网站上构建现代化的搜索体验,更重要的是,您可以与外部 AI 和代理提供商交互,从而提高您内容的曝光度,并获得合理的报酬。

对于 AI 开发者——无论是构建智能代理应用的开发者,还是提供基础 LLM 模型的 AI 平台公司,Cloudflare 将通过 AI Index 提供一种全新的网络内容发现与检索方式:通过直接订阅发布/订阅连接,与单个网站建立定向数据通道。与传统的无差别爬取方式不同,开发者可以订阅那些主动选择加入发现机制的特定网站,在内容更新时即时接收结构化数据,并为每次访问支付合理费用。而是否允许访问,始终由网站所有者自主决定。

Cloudflare 还将从各个独立索引中构建一个聚合层,即开放索引,将参与其中的网站整合在一起。开发者可以通过这一统一入口,在特定站点集合或更广泛的互联网中进行搜索,而每个网站仍然保有控制权,并能通过参与获得收益。

为什么要构建 AI Index?

AI 平台正迅速成为人们在线获取信息的主要途径之一。无论是让聊天机器人总结一篇新闻文章,还是寻找产品推荐,获取答案的过程几乎总是始于对原始内容的抓取,并对这些数据进行索引或用于模型训练。然而,目前这一过程主要由平台掌控:抓取哪些内容、抓取频率如何,以及网站所有者是否能对此施加影响,往往都由平台说了算。

尽管 Cloudflare 目前提供相关服务,可帮助您监测并控制 AI 服务是否遵守您的访问政策以及如何访问您的内容,但要让新内容被及时发现仍然颇具挑战。内容创作者目前缺乏一种有效的方式,来向 AI 开发者表明某网页已发布或已更新。另一方面,对于 AI 开发者而言,对非结构化内容进行抓取和重复抓取成本高昂且浪费资源,尤其是在事先无法预知内容质量和抓取成本的情况下。

我们需要一个更公平、更健康的生态系统来进行内容发现和使用,从而弥合内容创作者和 AI 开发者之间的差距。

AI Index 的运作方式

当您将一个域名接入 Cloudflare,或者您已经在 Cloudflare 上拥有一个现有域名时,您可以选择启用 AI Index。一旦启用,我们将自动为您的域名创建一个已针对 AI 进行优化且由您拥有和控制的搜索索引。

随着您的网站不断更新和扩展,该索引也将随之动态演进。新增或更新的页面将使用与 Cloudflare AI Search(原 AutoRAG)相同的技术进行实时处理,并以 Cloudflare 的网站作为数据源。最棒的是,我们将为您管理一切:您无需操心计算、存储资源、数据库、嵌入、内容分块或 AI 模型等各个环节。所有工作都将在后台自动完成。

重要的是,您将能够自主控制网站索引中包含或排除哪些内容,以及可以通过 AI Crawl Control 访问您的内容,确保只有您愿意公开的数据才会被纳入可搜索和可访问的范围。此外,您也可以选择完全退出 AI Index;这一切都由您自主决定。

设置 AI Index 之后,您将获得一套可直接使用的 API:                                                                                                                                                  

  • MCP 服务器:代理应用程序将能够使用模型上下文协议 (MCP) 直接连接到您的网站,从而使智能体能够以标准化的方式发现您的内容。这包括对 NLWeb 工具的支持,NLWeb 是 Microsoft 开发的一个开放项目,它定义了网站上自然语言查询的标准协议。

  • 灵活的搜索 API:该端点将以结构化 JSON 格式返回相关结果。

  • LLMs.txt 和 LLMs-full.txt:这两个标准文件遵循新兴的开放标准,为 LLM 提供您网站的机器可读地图。这些文件将帮助模型在推理时理解如何使用您网站的内容。您可以在 Cloudflare 开发者文档中找到一个 llms.txt 的示例。

  • 批量数据 API:一个用于高效传输大量内容的端点,可根据您设置的规则使用。AI 提供商无需查询每个文档,即可一次性摄取数据。

  • 发布/订阅:AI 平台将能够订阅您网站的索引,并以结构化的格式实时接收来自 Cloudflare 的事件和内容更新,从而无需重新抓取即可轻松保持最新状态。

  • 可发现性指令:通过 robots.txt 文件和常用 URI,允许访问您网站的 AI 智能体和爬虫自动发现并使用可用的 API。

该索引将直接与 AI Crawl Control 集成,因此您可以查看谁在访问您的内容、设置规则和管理权限。此外,通过按抓取付费x402 集成,您可以选择直接通过内容访问获利。

面向 AI 构建者的网络信息流

作为 AI 构建者,您将能够通过各个网站的 AI 索引发现并订阅高质量的、经授权的网络数据。您无需再盲目地在开放的互联网上部署爬虫,而是通过发布/订阅模式进行连接:参与的网站会在其内容发生更改时发布结构化的更新,您可以订阅以实时接收这些更新。在这种模式下,您的新工作流程可能如下所示:

  1. 发现已选择加入的网站:浏览并筛选通过 Cloudflare 提供索引的网站目录。

  2. 使用元数据和指标评估内容:在访问内容之前,获取关于各种指标(例如,独特性、深度、上下文相关性、受欢迎程度)的内容元数据信息。

  3. 公平付费访问:当内容具有价值时,平台可以通过“按抓取付费”的方式直接向创作者支付报酬。这些付款不仅实现了内容访问,还支持了原创内容的持续创作,有助于维持一个更健康的发现生态。

  4. 订阅更新:使用发布-订阅机制接收网站变更事件,从而获知何时检索或爬取新内容,避免因持续重复爬取而浪费资源。

通过从盲目爬取转向网络许可式发布/订阅系统,AI 构建者可以节省时间、降低成本,并获得更干净、高质量的数据,同时内容创作者也能保持控制权并获得公平的报酬。

汇总的开放索引

单个索引使 AI 平台能够直接从特定网站访问数据,从而订阅更新、评估价值并按网站付费获取完整内容访问权限。但当开发者需要大规模工作时,管理数十甚至数百个独立的订阅可能会变得非常复杂。开放索引将提供一个额外的选择:一个包含这些索引的捆绑式可选集合,其中包含质量、独特性、原创性和内容深度筛选等高级功能,所有功能都集中在一个地方。

开放索引旨在让大规模内容发现变得更加容易:

  • 获取统一访问权限:同时查询和检索多个参与站点的数据。这降低了集成开销,使构建者能够接入精心整理的数据集合,或将其用作现成的网络搜索层,以便在查询时访问。

  • 探索更广泛的范围:使用特定主题的资源包(例如,新闻、文档、科学研究)或涵盖更广泛网络的通用发现索引。这使您可以轻松探索可能尚未单独发现的新内容来源。

  • 自下而上的变现模式:结果仍然来自单个网站的 AI Index,盈利通过按抓取付费的方式回流到该网站,这有助于大规模保持公平性和可持续性。

结合使用单站点 AI 索引和开放索引,您既可以在需要获取单个站点的完整内容(例如用于模型训练、AI 智能体或搜索体验)时,获得灵活性和精准控制;又能在需要对全网进行统一搜索时,实现广泛的搜索覆盖。

您如何参与到这场转变中

借助 AI Index 和 Cloudflare 开放索引,我们正在创建一个模型,由网站自主决定其内容如何被访问,同时让 AI 开发者能够大规模获取结构化、可靠的数据,从而为互联网上的内容发现与使用构建一个更加公平、健康的生态系统。

我们首先推出内部测试版。如果您想将您的网站注册到 AI Index 或作为 AI 开发者访问发布/订阅网络源,您可以立即注册

我们保护整个企业网络,帮助客户高效构建互联网规模的应用程序,加速任何网站或互联网应用程序抵御 DDoS 攻击,防止黑客入侵,并能协助您实现 Zero Trust 的过程

从任何设备访问 1.1.1.1,以开始使用我们的免费应用程序,帮助您更快、更安全地访问互联网。要进一步了解我们帮助构建更美好互联网的使命,请从这里开始。如果您正在寻找新的职业方向,请查看我们的空缺职位
AI生日周按抓取付费AI SearchMCP

在 X 上关注

Celso Martinho|@celso
Cloudflare|@cloudflare

相关帖子

2025年10月24日 17:10

How Cloudflare’s client-side security made the npm supply chain attack a non-event

A recent npm supply chain attack compromised 18 popular packages. This post explains how Cloudflare’s graph-based machine learning model, which analyzes 3.5 billion scripts daily, was built to detect and block exactly this kind of threat automatically....

2025年9月29日 14:00

15 年来帮助建设更好的互联网:2025 年生日周总结

Rust 驱动的核心系统、后量子升级、学生免费使用开发人员平台、PlanetScale 集成、开源合作伙伴关系,以及我们有史以来最大规模的实习计划——2026 年招聘 1111 名实习生。...