このコンテンツは自動機械翻訳サービスによる翻訳版であり、皆さまの便宜のために提供しています。原本の英語版と異なる誤り、省略、解釈の微妙な違いが含まれる場合があります。ご不明な点がある場合は、英語版原本をご確認ください。
Cloudflareのデータによると、当社のネットワーク全体のトラフィックの32%は、自動化されたトラフィックから発信されています。これには、検索エンジンクローラー、稼働時間チェッカー、広告ネットワークが含まれます。また、最近では、Webを調べてナレッジベースに関連データを追加し、検索拡張生成(RAG)を使用して応答を生成するAIアシスタントも含まれます。典型的な人間の行動とは異なり、AIエージェント、クローラー、スクレイパーの自動化された行動は、リクエストに応答するサーバーに対して攻撃的に見える場合があります。
たとえば、AIボットは大量のリクエストを頻繁に発行し、多くの場合並行してそのような対応を行います。人気ページに焦点を当てるのではなく、サイト全体で訪問者がほとんどないコンテンツや関連性が緩いコンテンツに、多くの場合、Webサイトの完全なスキャンを連続して実行することがあります。例えば、応答を生成するAIアシスタントが、画像、文書、知識記事などの無関係な情報源を取得することがあります。
Cloudflareはすでに、コンテンツへの自動アクセスを制御および制限することを簡単にしていますが、多くのサイトはAIトラフィックに対応したいと考えています。例えば、アプリケーション開発者は、基本的なAIモデルにおいて開発者ドキュメントが最新であることを保証したい、eコマースサイトは、商品情報がLLM検索結果の一部であることを確認したい、あるいはパブリッシャーは、クロールごとに課金などのメカニズムを通じてコンテンツの対価を得たいと考えるかもしれません。
そこで、Webサイト運営者は、「AIクローラー」に合わせるか、人間のトラフィックに合わせるかという二分構築に直面します。両者が大きく異なるトラフィックパターンを示すため、現在のキャッシュアーキテクチャは、リソースを節約するために1つのアプローチを選択することを余儀なくされます。
この記事では、AIトラフィックがストレージキャッシュにどのように影響するかを探り、この影響を軽減することに関連するいくつかの課題について説明し、コミュニティがAI時代にCDNキャッシュを適応することを検討するための方法を提案します。
この研究は、ETH Zurichの研究者チームとの共同作業です。この成果の完全版は、2025年Symposium on クラウドコンピューティング で、Zhangなどによる「AI時代に向けたWebキャッシュデザインの再考」として発表されました。
では、キャッシングについて簡単におさらいしましょう。ユーザーが自分のデバイスでコンテンツを要求すると、通常、ユーザーに最も近いCloudflareデータセンターに送信されます。リクエストが到着すると、有効なキャッシュコピーがあるかどうかを確認します。そうすれば、即座にコンテンツを提供できるため、迅速な対応が可能になり、ユーザーも満足します。コンテンツがキャッシュから読み取れない場合(「キャッシュミス」)、データセンターは配信元サーバーに連絡して新しいコピーを取得し、有効期限が切れるか、他のデータによって追い出されるまでキャッシュに保存します。
キャッシュに適切な要素を保持することは、キャッシュミスを減らし、優れたユーザーエクスペリエンスを提供するために極めて重要ですが、人間のトラフィックにとって「正しい」ことは、AIクローラーにとって正しいことと大きく異なる場合があります。
ここでは、自己識別型AIボットトラフィックの80%を占める、最も活発なAIボットタイプとして浮上したAIクローラートラフィックに焦点を当てます最近の分析。AIクローラーは、質問への回答やページの要約など、リアルタイムのAIサービスをサポートするためのコンテンツを取得します。また、LLMなどのモデルの大規模なトレーニングデータセットを構築するためにデータを収集することもできます。
Cloudflare Radarのデータによると、単一目的のAIボットトラフィックの大半はトレーニング用で、検索がはるかに2位でした。(Cloudflareで見られるAIクローラートラフィックの詳細については、こちらのブログ記事をご覧ください)。
検索クロールとトレーニングクロールはどちらも、多数の順次、ロングテールアクセスを通じてキャッシュに影響を与えますが、トレーニングトラフィックには、ユニークURL比率の高さ、コンテンツの多様性、クローリングの非効率性などの特性があり、キャッシュにさらに影響を与えます。
AIトラフィックは、CDNに対する他のトラフィックとどのように異なるか?
AIクローラーのトラフィックには、「URLの固有率の高さ」、「コンテンツの多様性」、「クローリングの効率の悪さ」という3つの主な特徴があります。
毎月大規模なWebクロールを行うCommon Crawlのパブリッククロール統計によると、ページの90%以上がユニークなコンテンツであることがわかっています。異なるAIクローラーは、異なるコンテンツタイプもターゲットとしています。例えば、技術文書に特化したものもあれば、ソースコード、メディア、ブログ記事に焦点を当てたものもあります。最後に、AIクローラーは必ずしも最適なクローリング経路をたどるとは限りません。一般的なAIクローラーからの取得のかなりの部分が404エラーまたはリダイレクトにつながりますが、これは多くの場合、URLの処理が不十分であることが原因です。これらの無効なリクエストの割合は、クローラーがライブの有意義なコンテンツをどの程度ターゲットにしているかによって変わってきます。また、AIクローラーは通常、人間のユーザーと同じようにブラウザ側のキャッシングやセッション管理を行いません。AIクローラーは複数の独立したインスタンスを起動できますが、セッションを共有しないため、すべてのインスタンスが同じコンテンツを要求した場合でも、それぞれがCDNにとって新しい訪問者として表示される場合があります。
単一のAIクローラーでも、一般的な人間のユーザーよりもWebサイトを深く掘り下げ、幅広いコンテンツを調査できる可能性があります。Wikipediaの利用状況データによると、かつては「ロングテール」と考えられていたページやほとんどアクセスされないページが頻繁にリクエストされるようになり、CDNのキャッシュ内でのコンテンツ人気分布が変化しています。実際、AIエージェントは検索結果を絞り込むために反復的にループし、同じコンテンツを何度もスクレイピングしている可能性があります。この反復ループによって、コンテンツの再利用性が低く、カバレッジが広いことを示すために、これをモデル化しました。
AIエージェントの動作をモデル化すると、反復ループで検索結果を絞り込み(検索拡張生成の一般的なパターン)、ユニークアクセス率(上の赤列)、通常は70~100%に維持されることがわかります。つまり、各ループは、エージェントの精度が向上する一方で(ここでは青い線で示されている)、以前表示されたページに再アクセスするのではなく、常に新しい独自のコンテンツを取得しています。
ロングテールアセットへのこの繰り返しアクセスにより、人間のトラフィックが頼るキャッシュが最適化されます。そのため、クローラートラフィックの増加に伴って、既存のプリフェッチや従来のキャッシュ無効化戦略の効果が下がる可能性があります。
CDNにとって、キャッシュミスは、要求されたコンテンツを取得するために、配信元サーバーにアクセスする必要があることを意味します。キャッシュミスは、地元の図書館に本がなく、図書館間ローンチから本を入手するために待たなければならないようなものだと考えてください。最終的には書籍が入手できますが、思ったより時間がかかります。また、その本をローカルに在庫切れにするのは良いアイディアであることを、図書館に知らせることもできます。
AIクローラーは、ロングテール再利用を伴う広範で予測不可能なアクセスパターンの結果として、キャッシュミス率を大幅に上昇させます。また、キャッシュ投機やプリフェッチなど、キャッシュヒット率を向上させる典型的な方法の多くは、大幅に効果が低下しています。
以下の最初のグラフは、特定されたAIクローラーを使用した場合と使用しない場合のCloudflareのCDNの単一ノードのキャッシュヒット率の違いを示しています。特定されたAIクローラー。クローラーの影響は比較的限定的ですが、AIクローラーのトラフィックの追加により、ヒット率が明らかに低下しています。Cloudflareでは、「Least Recently Used(最後に使われてからの経過時間が最も長いもの)」(LRU)と呼ばれるアルゴリズムでキャッシュを管理しています。つまり、ストレージスペースが満杯になった時に、最もリクエストの少ないコンテンツを最初にキャッシュから削除し、より人気の高いコンテンツのためのスペースを作ることができるのです。ヒット率の低下は、LRUがAIクローラーの繰り返しスキャン動作に苦慮していることを示唆しています。
下の図は、この期間のAIのキャッシュミスを示しています。それらのキャッシュミスはそれぞれオリジンへのリクエストを表しており、応答時間が遅くなり、オリジンでエグレスコストと負荷が増大します。
AIボットトラフィックの急増は、現実世界に影響を与えています。論文に掲載された次の表は、いくつかの大規模Webサイトへの影響を示しています。各例は、情報元レポートにリンクしています。
システム | 報告されたAIトラフィックの動作 | 報告された影響 | 報告された軽減策 |
Wikipedia | モデルのトレーニングのための一括画像スクレイピング1 | 50%急増マルチメディア帯域幅使用量1 | クローラートラフィックのブロック1 |
SourceHut | コードリポジトリをスクレイピングするLLMクローラー2,3 | サービスの不安定性と速度低下2,3 | クローラートラフィックのブロック2,3 |
ドキュメントを読む | AIクローラーは1日に数百回の大規模なファイルをダウンロード2、4 | 帯域幅の大幅な増加2,4 | クローラートラフィックを一時的にブロックし、IPベースのレート制限を実行し、CDNを再構成してキャッシングを改善した2、4 |
Fedora | AIスクレイパーはパッケージミラーを再帰的にクロールします2、5、6 | 人間のユーザーに対して遅い応答2,5,6 | 既知のボット送信元からのトラフィックを地理的にブロックし、複数のサブネットや国をブロック2,5,6 |
Diaspora | robots.txtを尊重しない積極的なスクレイピング7 | 人間ユーザーへの応答の遅さとダウンタイム7 | ブロックされたクローラートラフィックとレート制限が追加された7 |
影響は深刻で、Wikimediaでは大量の画像スクレイピングが原因で、マルチメディア帯域幅の使用量が50%も急増しました。Fedoraは大きなソフトウェアパッケージをホストしており、Diasporaのソーシャルネットワークは人間のユーザーにとって重たい負荷と低パフォーマンスに悩まされていました。その他にも、AIボットが大きなファイルを繰り返しダウンロードすることによる帯域幅の増加や速度低下が注目されています。クローラートラフィックをブロックすることで影響の一部を軽減することができますが、よりスマートなキャッシュアーキテクチャは、サイト運営者は人間のユーザーの応答時間を維持しながら、AIクローラーにサービスを提供できるようになります。
AIクローラーは、検索拡張生成(RAG)やリアルタイム要約などのライブアプリケーションを強化するため、遅延は問題になります。そのため、これらのリクエストは、大容量と中程度の応答時間のバランスを取ることができるキャッシュにルーティングされる必要があります。こうしたキャッシュは新鮮性を保つ必要がありますが、人間向けのキャッシュよりもわずかに高いアクセス遅延を許容します。
AIクローラーは、トレーニングセットの作成や大規模なコンテンツ収集ジョブの実行にも使用されます。こうしたワークロードは大幅に高い遅延を許容することができ、時間に影響されません。そのため、リクエストは、到達までに時間がかかる深いキャッシュ階層(たとえば、オリジン側のSSDキャッシュなど)から提供されたり、キューベースの許可やレートリミッターを使用してバックエンドの過負荷を防ぐために遅延を提供することもできます。これにより、インフラストラクチャが負荷を受けているとき、インタラクティブな人間やAIのユースケースに影響を与えることなく、大量のスクレイピングを遅らせることもできます。
CloudflareのAI IndexやMarkdown for Agentsのような既存のプロジェクトにより、Webサイト運営者は、既知のAIエージェントやボットにWebサイトの簡略化または縮小バージョンを提示することができます。AIトラフィックがCDNキャッシュに与える影響を軽減するために、より多くのことを計画しており、あらゆる人にとってのキャッシュパフォーマンスの向上につながっています。ETH Zhourichの共同作業者とともに、2つの補完的なアプローチを試しています。1つ目は、AI認識型キャッシングアルゴリズムによるトラフィックフィルタリングであり、次に、AIクローラーのトラフィックをキャッシュに吸い上げて、AIクローラーと人間のトラフィックの両方のパフォーマンスを向上させる、まったく新しいキャッシュレイヤーを追加することを検討します。
キャッシュ代替アルゴリズムには、LRU(「Least Recently Used(最近最も使われなかった)」、LFU(「Least Recently Used(最近最も使われなかった)」)、FIFO(First-In, First-Out)など、さまざまな種類があります。新しい要素を追加する必要があり、キャッシュがいっぱいになった場合、キャッシュから要素を退避させることを選択することもできます。LRUは、単純さ、低オーバーヘッド、一般的な状況に対する有効性のバランスが最も優れていることが多く、広く使用されています。しかし、人間とAIボットトラフィックが混在する場合、当社の初期実験によると、キャッシュ代替アルゴリズムを別のものに選択すること、特にSEIVEまたはS3FIFOを使用することで、AIの干渉の有無にかかわらず、人間のトラフィックが同じヒット率を達成できることが示されています。また、より直接的なワークロード認識型で機械学習に基づくキャッシュアルゴリズムを開発し、より高速で安価なキャッシュを実現するために、キャッシュ応答をリアルタイムでカスタマイズすることも実験的に取り組んでいます。
長期的には、AIトラフィック用のキャッシュレイヤーを分離することが最善の方法になると予想しています。人間のトラフィックとAIのトラフィックを、ネットワークの異なるレイヤーにデプロイされた異なる層にルーティングするキャッシュアーキテクチャを想像してみてください。人間のトラフィックは、応答性とキャッシュヒット率を優先するCDN PoPにあるエッジキャッシュから引き続き提供されます。AIトラフィックの場合、キャッシュ処理はタスクタイプによって異なる場合があります。
AIボットトラフィックがクラウドインフラストラクチャに与える影響は、今後数年で増大する一方です。この新しいワークロードに対応し、より良いインターネットの構築に貢献するために、世界中のCDNに与える影響をより的確に把握するとともに、大胆な新しいキャッシュポリシーとアーキテクチャが必要です。
Cloudflareはすでに、ここで提起した問題を解決しつつあります。Cloudflareは、AI認識型キャッシングを使用して、高いボットトラフィックを経験するお客様の帯域幅コストを削減し、AI Crawl Controlとクロールごとに課金ツールを使用することで、お客様が誰がプログラム的にコンテンツにアクセスするかをより適切に制御できるようにします。
この分野の調査はまだ始まったばかりです。新しいMLベースのキャッシングアルゴリズムの構築や、これらの新しいキャッシュアーキテクチャの設計にご興味のある方は、インターンシップにご応募ください!2026年夏と秋に、AIとシステムの交点におけるこのようなエキサイティングな問題に取り組むため、インターンシップの募集を行っています。