新規投稿のお知らせを受信されたい方は、サブスクリプションをご登録ください:

少ない参照でクロール:AIがコンテンツプロバイダーに与える影響を理解する

2025-07-01

7分で読了
この投稿はEnglish繁體中文FrançaisDeutsch한국어EspañolNederlands简体中文でも表示されます。

コンテンツパブリッシャーは、検索エンジンのクローラーやボットを歓迎していました。サイトへのトラフィックを高めるのに役立つからです。クローラーはサイトで公開されている内容を確認し、その情報を検索しているユーザーに表示します。短いタイトル以上の情報にアクセスするにはページをクリックする必要があるため、サイト所有者はコンテンツを収益化することができました。

人工知能(AI)ボットもサイトのコンテンツをクロールしますが、得た情報を提供するモデルはまったく異なります。これらの大規模言語モデル(LLM)は、ウェブ上の情報を読み取り、システムを訓練してユーザー向けにコンテンツを再パッケージ化します。これにより、ユーザーはオリジナルのコンテンツを訪問する必要はなくなります。

AIアプリはそれでもオリジナルのコンテンツから引用しようとするかもしれませんが、AIボットが特定のWebサイトをスクレイピングする頻度に比べると、実際にオリジナルのWebサイトをクリックするユーザーはほとんどいないことがわかりました。私たちはこの課題について、小さな範囲で議論してきましたが、この度Cloudflare Radarの「AIのインサイト」ページに表示される新しい指標として、当社の調査結果を公開いたしました。

Cloudflare Radarの訪問者は、特定のAIモデルがサイトをクロールする頻度と比較して、そのサイトにトラフィックを送信する頻度を確認できるようになりました。Cloudflareはこの分析情報を幅広いオーディエンスに向けて共有しております。これにより、サイト所有者は、どのAIボットを許可またはブロックするかを決定するのに役立つ情報を得ることができるようになり、またユーザーは、AIの使用が全体としてインターネットトラフィックにどのように影響を与えるかを理解できるようになります。

測定の仕組み

HTMLページはおそらくクローラーにとって最も価値のあるコンテンツであり、この指標で表示される比率は、特定の検索からのリクエスト数、または応答がContent-type: text/htmlであるAIユーザーエージェントからのリクエスト数を、Refererヘッダーに検索プラットフォームまたはAIプラットフォームの1つに関連付けられたホスト名が含まれるHTMLコンテンツに対するリクエスト数で割って計算されます。

以下の図は、一般的な2つのクローリングのシナリオを表しており、企業がクローラーの目的に応じて異なるユーザーエージェントを使用することを示しています。上部にあるものは、サンプルAIプラットフォームがLLMのトレーニングを目的としてコンテンツをリクエストする単純なトランザクションを表し、これをAIBotとしています。下の例は、あるAIプラットフォームがユーザーからのリクエストに応えるためにコンテンツを取得している状況を示しています(たとえば、フライト情報を探している場合など)。この場合、AIプラットフォームはAIBot-Userという名前で自らを識別しています。これらの両方のユーザーエージェントからのリクエストトラフィックは、分析の目的のために、単一のプラットフォーム名に集約されます。

ユーザーがWebサイトやアプリケーションのリンクをクリックすると、クライアントはターゲットサイトへのリクエストの一部としてReferer:ヘッダーを送信することが多くあります。以下の図では、サンプルAIプラットフォームが、ユーザーの操作に応じて外部サイトへのリンクを含むコンテンツを返しています。ユーザーがリンクをクリックすると、Referer:ヘッダーにai.example.comを含むコンテンツプロバイダーにリクエストが行われ、そのリクエストのトラフィックがどこから来たかを知らせます。分析の目的により、ホスト名はそれぞれのプラットフォームに関連付けられています。

確認された内容

比率の検証

新しい指標は、特定のプラットフォームに関連付けられたクローラー(ユーザーエージェント)からのHTMLページリクエストの集約数と、特定のプラットフォームに関連付けられたホスト名によって参照されるクライアントからのHTMLページリクエストの数を比較した単純な表として表示されます。計算された割合は常に、1つの参照リクエストに正規化されます。

下の表は、2025年6月19日から26日までの期間について、Anthropicの70,900:1からMistralの0.1:1までの比率の範囲を示しています。これは、AnthropicのAIプラットフォームのClaudeがHTMLページの参照ごとに71,000件近いHTMLページリクエストを送信していたのに対して、Mistralはクロールリクエストの10の参照トラフィックを送信したことを意味します。(ただし、Claudeのネイティブアプリによって参照されるトラフィックには、Referer:ヘッダーが含まれていません。他のネイティブアプリから生成されたトラフィックについても、同じことが言えると考えられます。そのため、参照トラフィックの数にはプロバイダーが提供するWebベースのツールからのトラフィックのみが含まれるため、これらの計算は、それぞれの比率を誇張している可能性がありますが、その程度は不明です)。

もちろん、クローリングパターンの変化もあるため、これらの比率は時間の経過とともに変化します。上の表は、DuckDuckGoとYandexの6%以上の増加やGoogleの19.4%の減少など、前期と比較した変化を示しています。Googleが前週比で減少したことは、6月24日からGoogleBotからのクローリングトラフィックの減少したことに関連していますが、Yandexの前週比の増加は、下のグラフに見られるように、6月21日に開始されたYandexBotのクローリング活動の増加に関連しています。

RadarのData Explorerには、以下のBaiduの例のように、これらの比率が時間の経過とともに変化する様子を示す時系列ビューが含まれています。この時系列データは、APIエンドポイントからも利用できます。

参照トラフィックのパターン

基盤となるアクティビティの変化や傾向は、関連付けられたData Explorerビュー、APIエンドポイント経由で入手できる生データ(時系列サマリー)で見ることができます。なお、参照トラフィックとクロールトラフィックの両方の割合は、グラフに含まれるリファラーとクローラーのデータセットに対するものであり、Cloudflareのトラフィック全体ではありません。

例えば、2025年6月の最初の約4週間を対象とした以下のリファラー中心のビューでは、参照トラフィックは検索プラットフォームGoogleによるものが圧倒的であり、データには1日のうちに変化するかなり一貫したパターンが見られます。(google.*エントリーは、google.comからの参照トラフィックに加えて、google.esまたはgoogle.com.twなどの各国のGoogleサイトからのトラフィックも含んでいます)。推測ルールの使用によるプリフェッチングにより、Googleの自律システム番号(AS15169)からの参照トラフィックは、アクティブなユーザーによるコンテンツ消費を表さないため、ここでは分析から除外しています。

他の検索プラットフォームの参照リクエストにも、1日のうちに変化するかなり一貫したパターンが見られます。ただしリクエスト数における割合は、Googleが占める割合と比べるとほんのわずかです。 

6月を通して、AIプラットフォームによる参照トラフィックの割合は大幅に低く、合計で見ても、検索プラットフォームによる参照トラフィックの割合よりも大幅に低くなっていました。

クローリングトラフィックの変化

前述のように、経時的なこの比率の値の変化の大部分は、クローリングアクティビティのの変動によって影響を受けることがあります。これらの変化は、Data Explorerで確認できるクローリングトラフィックの割合、およびAPIエンドポイント経由で得られる生データ(時系列サマリー)にも表れています。以下のクローラー中心のビューでは、2025年6月の最初の約4週間を見てみると、GooglebotGoogleOtherの両方のGoogleのクローリングアクティビティに関するリクエストの割合が、いくつかの増減の波(ピークと谷)を経ながら月を通して徐々に減少していることがわかります。同じ期間中における、GoogleのAS15169からのHTTPリクエストのトラフィックにも、これと似たようなパターンが見られました。このことは、先ほどの割合の減少とおおよそ一致しています。

さらに、OpenAIのGPTBotでは月間を通してクローリングアクティビティがほぼ、またはまったく確認されない期間が複数回ありました。

コンテンツプロバイダーにとってこのデータが示す意味

これらの比率は、インターネット上のコンテンツ公開の実行可能性に直接影響します。これらの比率は時間の経過とともに変化しますが、相互に比較すると、クロールが多く、参照が少ないという傾向は継続的なものです。従来の検索インデックスクローラーは、訪問者によって送信されたリクエストごとに、数回、またはそれ以下の回数でコンテンツをスキャンしていました。以前はサイトがクローラーに公開されたことで、同社の収益モデルの実現可能性は、低下するのではなく向上していました。

当社で確認している新しいデータは、もはやそうではないことを示唆しています。これらのモデルでは、コンテンツのソースに同程度またはより少ない送信するトラフィックを送信するにもかかわらず、より頻繁に、より多くのコンテンツを消費し続けます。

Cloudflareはこの1年の間、サイト所有者がコントロールを取り戻せるよう、新しいツールをいくつかリリースしてきました。パブリッシャーは、ワンクリックで、自社のコンテンツを学習に利用するAIクローラーをブロックすることができます。そして本日、私たちは両サイドの価値交換を公平にするための新しい方法を発表しました。それでもなお、私たちはコンテンツクリエイターがAIクローラーを監査し、その後、希望するポリシーをAIクローラーに適用することを引き続き推奨します。

さらにもう一点...

クローリングや参照トラフィック、それに関連する傾向について新たなインサイトを提供するだけでなく、Verified Bots(検証済みボット)に関するコンテンツも拡充しました。Cloudflare Radarの「ボット」ページの一部で、検証済みボットの一覧を確認することができます。この一覧では、ボット名、運営元、カテゴリ、リクエスト数に基づくランクを確認することができます。また、ボットの一覧を「ボット」セクション内の専用ディレクトリとして独立しました。この新しいディレクトリでは、検証済みボットがカード形式で表示され、ボット名、説明、運営元、カテゴリ、検証ステータスなどを確認することができます。ボット名、運営元、説明文で検索できるほか、カテゴリごとの絞り込み(たとえば「モニタと分析」ボットのみ表示)も可能です。

カード内のボット名をクリックすると、そのボット専用の詳細ページが開き、「ボットのメタデータ」、「そのボットのユーザーエージェントのHTTPリクエストヘッダー内での表記」、「robots.txtディレクティブでの指定内容」、「指定した期間におけるHTTPリクエストのトラフィック推移グラフ(デフォルトは前の期間との比較)」を確認することができます。関連データは、APIからも利用可能です。今後このボット専用ページに情報が追加された際は、Changelogエントリでお知らせします。

Cloudflareは企業ネットワーク全体を保護し、お客様がインターネット規模のアプリケーションを効率的に構築し、あらゆるWebサイトやインターネットアプリケーションを高速化し、DDoS攻撃を退けハッカーの侵入を防ぎゼロトラスト導入を推進できるようお手伝いしています。

ご使用のデバイスから1.1.1.1 にアクセスし、インターネットを高速化し安全性を高めるCloudflareの無料アプリをご利用ください。

より良いインターネットの構築支援という当社の使命について、詳しくはこちらをご覧ください。新たなキャリアの方向性を模索中の方は、当社の求人情報をご覧ください。
Pay Per CrawlRadarインターネットトラフィックAIボット

Xでフォロー

David Belson|@dbelson
Cloudflare|@cloudflare

関連ブログ投稿

2025年10月29日 13:00

One IP address, many users: detecting CGNAT to reduce collateral effects

IPv4 scarcity drives widespread use of Carrier-Grade Network Address Translation, a practice in ISPs and mobile networks that places many users behind each IP address, along with their collected activity and volumes of traffic. We introduce the method we’ve developed to detect large-scale IP sharing globally and mitigate the issues that result. ...