訂閱以接收新文章的通知:

機器人警察:強制執行您的 robots.txt 原則,並在機器人到達您的網站前加以阻止

2024-12-10

閱讀時間:3 分鐘
本貼文還提供以下語言版本:English简体中文

Cloudflare 的 AI 稽核儀表板可讓您輕鬆瞭解 AI 公司和服務如何存取您的內容。AI 稽核提供按機器人細分的要求計數摘要、詳細的路徑摘要(以獲得更精細的見解),以及按 AI 搜尋AI 網路爬蟲等類別進行篩選的能力。

今天,我們將更進一步。現在,您可以快速查看哪些 AI 服務遵守您的 robots.txt 原則,哪些未遵守,然後以程式設計方式強制執行這些原則。 

什麼是 robots.txt?

Robots.txt 是託管在您網域上的純文字檔案,它實作機器人排除通訊協定,該標準自 1994 年以來就一直存在。此檔案會告訴 Google、Bing 和許多其他網路爬蟲,它們被允許存取您網站的哪些部分(如果有)。 

網站擁有者想要定義允許網路爬蟲存取其網站的哪些部分,這樣做的原因有很多:他們可能不希望某些內容在搜尋引擎或社交網路上可用,他們可能對一個平台的信任程度高於另一個平台,或者他們可能只是想要以減少到達其伺服器的自動化流量。

隨著生成式 AI 的出現,AI 服務已經開始在網際網路上爬行來收集其模型的訓練資料。這些模型通常是專有的和商業的,用於產生新的內容。除了傳統的搜尋引擎外,許多想要控制其內容使用方式的內容創作者和發佈者也開始使用 robots.txt 來聲明涵蓋這些 AI 機器人的原則。

以下是一個頂級線上新聞網站的 robots.txt 原則的簡短真實範例:

User-agent: GPTBot
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Bytespider
Disallow: /

此原則聲明該新聞網站不希望 ChatGPT、Anthropic AI、Google Gemini 或 ByteDance 的 Bytespider 爬行其任何內容。

從自願合規到強制執行

一直以來,遵守《机器人排除通訊協定》都是自願性質。 

這就是我們的新功能的用武之地。我們延伸了 AI 稽核,讓客戶既能瞭解 AI 服務提供者對其 robots.txt 原則的遵守情況,可以在 WAF 的網路層級強制執行這些原則。 

您的 robots.txt 檔案聲明了您的原則,而現在我們可以幫助您強制實施該原則。您甚至可以稱它為您的機器人警察。  

運作方式

AI 稽核會從您的 Web 內容中擷取 robots.txt 檔案,對其進行剖析,然後將其規則與我們看到的所選內容的 AI 機器人流量進行比對。摘要表格為您提供了我們在所有路徑中看到的每個機器人的要求和違規數量的匯總檢視。如果將滑鼠懸停在 Robots.txt 欄上,我們將在工具提示中顯示為每個機器人定義的原則。您也可以從頁面頂部按違規行為進行篩選。 

BLOG-2619 2

在「最常用的路徑」部分中,每當您網站中的路徑收到違反原則的流量時,我們都會進行標記,以方便查看。理想情況下,您不會在 Robots.txt 欄中看到違規行為——如果您確實看到了違規行為,則表明有人沒有遵守。

BLOG-2619 3

但這並不是全部……更重要的是,AI 稽核可讓您在網路層級強制執行您的 robots.txt 原則。按下摘要表格頂部的「強制執行 robots.txt 規則」按鈕,我們會自動將您的 robots.txt 中為 AI 機器人定義的規則轉換為進階防火牆規則,將您重新導向到 WAF 設定螢幕,並允許您在我們的網路中部署該規則。

這是上述 robots.txt 原則轉換後的樣子:

BLOG-2619 4

一旦您部署了根據 robots.txt 原則構建的 WAF 規則,您就不再只是要求 AI 服務遵守您的原則,而是強制執行它。

結論

透過 AI 稽核,我們讓客戶能夠更深入瞭解 AI 服務如何存取其內容,協助他們定義原則,然後在網路層級強制執行。

此功能現已對所有 Cloudflare 客戶開放。只需登入儀表板並導覽至您的網域,即可開始稽核來自 AI 服務的機器人流量並強制執行您的 robots.txt 指令。

我們保護整個企業網路,協助客戶有效地建置網際網路規模的應用程式,加速任何網站或網際網路應用程式抵禦 DDoS 攻擊,阻止駭客入侵,並且可以協助您實現 Zero Trust

從任何裝置造訪 1.1.1.1,即可開始使用我們的免費應用程式,讓您的網際網路更快速、更安全。

若要進一步瞭解我們協助打造更好的網際網路的使命,請從這裡開始。如果您正在尋找新的職業方向,請查看我們的職缺
AI網路服務應用程式服務security.txt

在 X 上進行關注

Celso Martinho|@celso
Will Allen|@williamallen
Cloudflare|@cloudflare

相關貼文

2025年10月29日 下午1:00

One IP address, many users: detecting CGNAT to reduce collateral effects

IPv4 scarcity drives widespread use of Carrier-Grade Network Address Translation, a practice in ISPs and mobile networks that places many users behind each IP address, along with their collected activity and volumes of traffic. We introduce the method we’ve developed to detect large-scale IP sharing globally and mitigate the issues that result. ...

2025年10月24日 下午5:10

How Cloudflare’s client-side security made the npm supply chain attack a non-event

A recent npm supply chain attack compromised 18 popular packages. This post explains how Cloudflare’s graph-based machine learning model, which analyzes 3.5 billion scripts daily, was built to detect and block exactly this kind of threat automatically....