コンテンツにアクセスするAIモデルの監査と制御を開始
2024-09-23
Cloudflareのどのプランをご利用のお客様でも、AIモデルがサイト上のコンテンツにどのようにアクセスするかを監査し、制御できるようになりました。...
\n
AIモデルプロバイダーは、サイトのコンテンツにアクセスするときに、「ボット」または「クローラー」と呼ばれる自動化されたツールを使用してページをスキャンします。ボットはページのコンテンツを要求し、応答をキャプチャし、将来のデータトレーニングセットの一部として保存したり、将来のAI検索エンジンの結果のために記憶します。
これらのボットは、多くの場合、クロール対象のサイトやCloudflareのネットワークに対して身分を明かすために、ユーザーエージェントと呼ばれるリクエストにHTTPヘッダーを含めます。ただし、これらのAIサービスの1つのボットがヘッダーを送信しないこともあり、その際はCloudflareがIPアドレスや行動などの他の手がかりを使って識別します。
身分を明かすボットのヘッダーには、ボット名を含むテキスト文字列の記載があります。たとえば、Anthropicは「ClaudeBot
」というボットを使用してインターネット上のサイトをクロールすることがあります。そのサービスがCloudflare上のサイトからページのコンテンツをリクエストすると、CloudflareはユーザーエージェントをClaudeBot
として記録します。
Cloudflareは、サイトへの訪問から収集したログを取得し、既知のAIボットやクローラーと一致するユーザーエージェントを探します。個々のクローラーのアクティビティを要約し、特定のAIプラットフォームのアクティビティだけをレビューするフィルターも提供します。多くのAI企業は、異なる目的を果たす複数のクローラーを使用しています。OpenAIがサイトをスキャンしてデータスクレイピングを行う場合はGPTBotを使用しますが、新しいAI検索エンジン用にサイトをクロールする場合はOAI- SearchBotを使用します。
こうした違いは重要です。多様な種類のボットからのスキャンは、サイトへの訪問者数やコンテンツの出所に影響を与える可能性があります。AI検索エンジンは、応答の一部としてサイトへのリンクを提供して訪問者を目的のサイトに送る可能性があります。その場合、そういったボットがあなたのインターネットプロパティをクロールことに対してオープンである可能性があります。一方、AIデータスクレイパーは、将来のモデルのトレーニングや既存のモデルの改善のために、インターネットをできるだけ多く読み取るために存在しています。
私たちは、いつ、どのくらいの頻度で、ボットがお自分のサイトをクロールするのかを知る必要があると考えています。本日のリリースでは、「AIデータスクレイパー」、「AI検索クローラー」、「アーカイバー」などのカテゴリごとにボットアクティビティを確認できるフィルターが提供されます。
\nこのデータを使用して、AIモデルの自分のサイトに対するアクセス状況を分析することができます。特に、コンテンツに対するAIスキャンの処理方法をチームがまだ決めていない場合、この情報の多さにどうすれば良いか分からないと思います。その場合は、ステップ2に進んでください。
\n私たちは、AIクローラーにとって自分たちのサイトが価値ある目的地だと認識しているものの、まだどう対処すべきか分からない複数の組織と話をしました。これらのチームは、自分たちのデータをこれらのサービスにどのように提供するかを慎重に決めるための「タイムアウト」が必要です。
Cloudflareはその簡単なボタンを今すぐ提供します。どのプランのお客様でも、すべてのAIボットとクローラーをブロックすることができ、許可する内容を決めるまで一旦立ち止まることができます。
このオプションを実装するには、Cloudflareダッシュボードの [セキュリティ] タブにある「ボット」セクションに移動します。右上隅にある青いリンクを使用して、Cloudflareのプロキシがボットトラフィックを処理する方法を設定します。次に、「AIスクレイパーとクローラーをブロックする」カードのボタンを「オン」の位置に切り替えます。
\nワンクリックオプションを使用すると、Cloudflareが管理するリストに基づいて、既知のAI関連ボットやクローラーが自分のサイトにアクセスするのをブロックすることができます。ブロックを有効にすると、お客様とチームがコンテンツに関しての処理方法を多少時間をかけて決めることができます。
\n一時停止ボタンを使用することで、チームはクローラーに対する自分のコンテンツの向き合い方を多少の時間をかけて決めることができます。チームが決定を下したら、Cloudflareのネットワークを活用してそのポリシーを実行することができます。
その決定が、「どのようなクローリングも許可しない」となった場合、上記のブロックボタンを「オン」に切り替えたままにすることができます。スキャンを選択的に許可したい場合、本日のリリースで提供される、特定の種類のボット、または特定のプロバイダーからのボットのみのコンテンツへのアクセスを許可するオプションを使用することができます。
AI検索エンジンに関連するボットであれば、自分のサイトに訪問者を誘導できる可能性があるため、スキャンを許可したいというチームもあるでしょう。その他に、特定のモデルプロバイダーと契約を結んでおり、そのプロバイダーのものであれば全種類のボットにコンテンツへのアクセスを許可したいと考える組織もいるでしょう。お客様はCloudflareダッシュボードのWAFセクションから、これらを実現できるポリシーを実装することができるようになりました。
\nまた、管理者は、例えば特定のプラットフォームからのAIボットを除くすべてのAIボットをブロックするルールを作成することもできます。チームがある1つのAIモデルプロバイダーとそのポリシーに満足しており、その他のAIプラットフォームに対して懐疑的である場合、このタイプのフィルターを導入できます。この種のルールは、サイト所有者が単一プロバイダーからのスキャンを許可するよう交渉した場合の契約の実装にも使用できます。サイト管理者は、すべての種類のAI関連ボットをブロックするルールを作成し、特定のボット(またはAIパートナーからのボット)を許可する例外を追加する必要があります。
\nまた、これらの新しいフィルターの適用に加え、この新しいユースケースをカバーするようにサービス利用規約を更新することを検討することをお勧めします。私たちは、「善良な市民」ボットやクローラーがrobots.txtファイルに従うべき手順を文書化しています。そのベストプラクティスの延長として、新たに利用規約のサンプルセクションを文書に追加しました。このセクションでは、サイト所有者が、AIスキャンがrobots.txtファイルに定めたポリシーに従う必要があることを明確にするために使用することを検討できるサンプルのサービス利用規約セクションを提供します。
\nコンテンツの読み取りへの対価について、モデルプロバイダーと直接契約を交わすサイトが増えています。これらの契約の多くには、特定のセクションまたはサイト全体のクロール頻度に対する取り決めについて記載された規定があります。Cloudflareの [AI監査] タブでは、その種の契約を監視するためのツールが提供されています。
AI監査ツールの下部にある表には、ページ上部で設定したフィルターに基づいた期間内で最も多くスキャンされたサイトの人気コンテンツが、スキャン回数順に一覧表示されます。[CSVにエクスポート] ボタンをクリックすれば、ここに表示された詳細をファイルにダウンロードすることができ、コンテンツへのアクセスを許可しているAIプラットフォームとの矛盾について議論する際に使用することができます。
\n現在、利用可能なデータは、特定のページに対するリクエストやサイト全体に対するリクエストなど、このような契約を結んでいるお客様から提供された主要な指標を反映しています。
\n誰もがAI企業と契約内容を交渉できるだけの時間や人脈を持っているわけではありません。これまでは、インターネット上の大手パブリッシャーのみが、そのような条件を設定し、自分たちのコンテンツに対して報酬を得るためのリソースを持っていました。
それ以外の人たちは、自分のデータがどのように扱われるかについて、「すべてのスキャンをブロックする」か、「無制限にアクセスを許可する」かの2つの基本的な選択肢しかありません。本日のリリースにより、コンテンツクリエーターたちはこの2つの選択肢だけでなくより多くの可視性とコントロールを得ることができますが、インターネット上の多くのサイトは、収益化の道筋がまだ整っていません。
私たちは、どのような規模のサイトでも、コンテンツの使用に対して公平な対価が支払われるべきだと考えています。Cloudflareでは、単にクロールをブロックして分析するだけに留まらない、ダッシュボードの新しいコンポーネントを立ち上げる予定です。サイト所有者は、サイトまたはサイトのセクションの価格を設定し、スキャンと設定された価格に基づいてモデルプロバイダーに請求することができます。残りの作業はCloudflareが行いますので、お客様は訪問者のための素晴らしいコンテンツの制作に集中できます。
この新しいコンポーネントを通じて対価を得るための最速の方法は、お客様のサイトがCloudflareのネットワークを使用していることを確認することです。サイトが最初にCloudflareに参加した日付に基づいて、ベータ版への参加を招待する予定です。利用可能になり次第、お知らせを受け取りたい方は、こちらからお知らせください。
\n2024-09-23
Cloudflareのどのプランをご利用のお客様でも、AIモデルがサイト上のコンテンツにどのようにアクセスするかを監査し、制御できるようになりました。...
2024-04-18
Gartnerにより、CloudflareがGartner® Magic Quadrant™ for Security Service Edge (SSE) レポートで再度選出されました。このレポートで功績を認められたベンダーはわずか10社となる中、Cloudflareがその1社として名を連ねることとなりました。2年連続で、弊社の実行能力とビジョンの完全性が評価されたことになります...
2023-04-13
Cloudflare Zero Trustは「Gartner® Magic Quadrant™ for Security Service Edge」で選出されました...
2023-01-25
2023年1月24日、サービストークンを管理するコードのリリースエラーにより、複数のCloudflareサービスが121分間利用できなくなりました。このインシデントにより、Cloudflareのさまざまな製品の評価が落ちました...
2023-01-10
現在、1万を超える組織がCloudflare Oneを信頼して、ユーザー、デバイス、アプリケーション、データの接続・保護を実施しています。CIO Weekの一環として、いくつかの最大手のお客様のリーダー達との会話を通し、彼らがCloudflareを選択した理由について理解を深めることができました...
2022-12-12
本日より、 Cloudflare One Zero Trustスイートを、Project GalileoまたはAthenianの資格を持つチームに無償で提供することにしました...
2021-12-06
Cloudflare Oneは、企業が最新のエンタープライズ・ネットワークを構築し、効率的かつ安全に運用し、オンプレミスのハードウェアを捨てられるよう支援します。この製品群を発表してから1年以上が経過し、どのような状況になっているかを確認したいと考えました...
2021-04-15
本日より、同じプラットフォームでWebアプリケーション内で利用できる同じレベルのZero Trust制御を使って、お客様のチームがブラウザ内部からシームレスに非HTTPリソースに接続することができるようになります...
2021-03-24
本日は、Cloudflareのネットワークを使用して、企業内のデータが存在する場所や移動場所を問わず、ゼロトラストコントロールを構築できるプラットフォームを発表できることを嬉しく思います。...
2020-10-17
本日、Cloudflare 侵入検出システムの計画について発表できることをうれしく思います。この新製品は、ネットワークを監視し、攻撃が疑われるときに警告するものです。...
2020-10-12
企業ネットワークを安全に運営することは非常に困難です。世界各国で従業員が在宅勤務をするようになりました。アプリケーションはデータセンターで実行され、パブリッククラウドでホストされた上で、サービスとして提供されます。攻撃の機会を虎視眈々と狙う攻撃者はどのような脆弱性でも悪用します。...
2020-01-07
インターネットの利用体験は、時間の経過とともに改善され続けており、速度、安全性、信頼性がより高まってきました。...
2019-10-25
SSH公開鍵を使用している組織なら、SSH公開鍵を紛失してしまったなんてことは大いにあり得ると思います。鍵の所有者にインフラストラクチャへのアクセスを許可するファイルが、バックアップまたは前任者のコンピューターにあります。...