Firewall for AIを使用して、LLMエンドポイントを狙う危険なプロンプトを遮断

このコンテンツは自動機械翻訳サービスによる翻訳版であり、皆さまの便宜のために提供しています。原本の英語版と異なる誤り、省略、解釈の微妙な違いが含まれる場合があります。ご不明な点がある場合は、英語版原本をご確認ください。

セキュリティチームは、AIを搭載したアプリケーションという新たな攻撃対象領域の保護に躍起になっています。チャットボットから検索アシスタントに至るまで、LLMはすでにカスタマーエクスペリエンスを生み出していますが、新たなリスクへの扉も開いています。悪意のあるプロンプトが1つあるだけで、機密データを流出させたり、モデルをポイズニングしたり、有害なコンテンツを顧客向けのインタラクションに挿入したりして、ユーザーの信頼を損なう可能性があります。ガードレールがなければ、最良のトレーニングを受けたモデルでも、ビジネスに対抗することができます。

本日、AI Weekの一環として、Cloudflare Firewall for AIに直接統合された安全でないコンテンツのモデレーションを導入することで、AIセキュリティサービスを拡大します。Llamaで構築されたこの新機能により、お客様は既存のFirewall for AIエンジンを活用して、検出、分析、トピックの適用を統合し、ネットワークレベルで大規模言語モデル（LLM）をリアルタイムで保護することができます。セキュリティチームとアプリケーションチームは、数回のクリックで有害なプロンプトやトピックをエッジで検出し、ブロックできるようになりました。アプリケーションコードやインフラストラクチャを変更する必要はありません。この機能は、現在のFirewall for AIユーザーにすぐにご利用いただけます。まだオンボードをしていない方は、アカウントチームにご連絡いただければ、ベータプログラムにご参加いただけます。

アプリケーションセキュリティにおけるAI保護

CloudflareのFirewall for AIは、ユーザー向けのLLMアプリケーションを不正利用やデータ漏洩から保護し、OWASPのLLMトップ10リスクであるプロンプトインジェクション、個人を特定できる情報の開示、無制限の利用などに対処します。また、安全でない、有害なコンテンツなどの他のリスクにも保護を拡張します。

モデルプロバイダーによって異なる組み込みの制御とは異なり、Firewall for AIはモデル非依存です。OpenAIやGeminiといったサードパーティ、自社で実行するモデル、自社で構築したカスタムモデルなど、選択したあらゆるモデルの前に位置し、同じ一貫した保護を適用します。

オリジンに依存しないアプリケーションセキュリティスイートと同様に、Firewall for AIは、すべてのモデルに大規模にポリシーを適用し、統合されたセキュリティレイヤーを作成します。つまり、ガードレールを一度定義すれば、どこにでも適用できるということです。例えば、金融サービス企業では、LLMが財務関連の質問にのみ応答し、無関係なトピックや機密性の高いトピックに関するプロンプトをブロックするよう義務付けたり、使用されているすべてのモデルに一貫して適用することができます。

安全でないコンテンツのモデレーションがビジネスとユーザーを保護

効果的なAIモデレーションとは、「悪意のある言葉」をブロックするだけではありません。重要な声を黙殺するような過剰なモデレーションを行うことなく、ユーザーを保護し、法的義務を果たし、ブランドの整合性を維持することが重要です。

LLMは完全にスクリプト化できないため、その相互作用は本質的に予測不可能です。このような柔軟性のおかげで、豊かなユーザーエクスペリエンスが実現する一方で、不正利用の機会も生まれます。

安全でないプロンプトの主なリスクには、誤情報、偏ったコンテンツ、攻撃的なコンテンツ、モデルポイズニングなどがあります。有害なプロンプトが繰り返されると、将来のアウトプットの品質と安全性が低下します。こうしたプロンプトをブロックすることで、OWASPのLLMトップ10と整合し、即時の不正使用と長期的な劣化の両方を防ぐことができます。

この一例が、MicrosoftのTayチャットボットです。Trollは意図的に有害、人種差別、攻撃的プロンプトを送信し始め、Tayはすぐにそれを繰り返し始めました。失敗は、Tayの対応だけではありませんでした。入力内容について調整されて、

モデルに到達する前の安全でないプロンプトを検出する

Cloudflareは、Llama GuardをFirewall for AIと直接統合しました。これにより、お客様がすでにアプリケーションの保護に利用しているのと同じルールエンジンに、AI入力のモデレーションが導入されます。これは、私たちがAI GatewayプロダクトでAIを構築する開発者のために作成したものと同じアプローチを採用しています。

Llama Guardはプロンプトをリアルタイムで分析し、ヘイト、暴力、性的コンテンツ、犯罪計画、自己危害など、複数の安全性カテゴリーにフラグを立てます。

この統合により、Firewall for AIはLLMトラフィックエンドポイントを自動的に検出するだけでなく、セキュリティチームとAIチームが即座に対策を講じることができるようにします。安全でないプロンプトはモデルに到達する前にブロックでき、フラグの立ったコンテンツはログに記録またはレビューして監視とチューニングを行います。コンテンツの安全性チェックは、ボット管理やレート制限などの他のアプリケーションセキュリティ保護と組み合わせて、モデルを保護する際に多層防御を構築することもできます。

その結果、複雑な統合を必要とせずに、安全でないプロンプトがインフラストラクチャに到達する前にガードレールを適用する、単一のエッジネイティブなポリシーレイヤーを作成できます。

内部の動作

Firewall for AI Engineのアーキテクチャと、それが前述のモジュールにどのように適合し、プロンプト内の個人を特定できるかを説明する前に、安全でないトピックを検出する方法について紹介します。

安全でないトピックの検出

安全用ガードレールを構築する上で重要な課題は、優れた検出機能とモデルの有用性のバランスを取ることです。検出の範囲が広すぎると、モデルが正当なユーザーの質問に答えることができなくなり、その有用性が損なわれる可能性があります。これは、文脈が意味の基本であるため、人間の言語の曖昧性と動的性質により、トピック検出では特に困難です。

キーワードブロックリストのようなシンプルなアプローチは、対象を正確に把握するものとしては興味深いものですが、十分ではありません。これらは簡単に迂回され、単語が使用されている文脈を理解できないため、記憶力が低下します。Latent Dirichlet Allocation（LDA）のような古い確率的モデルは改善されましたが、単語の順序やその他の文脈の違いを適切に考慮できないものでした。最近のLLMの進歩により、新しいパラダイムが導入されました。ゼロショットまたは数秒の分類を実行する能力は、トピック検出タスクに独自に適しています。このため、私たちはLlama Guard 3を選択しました。Llamaアーキテクチャに基づき、コンテンツの安全性分類のために特に細かく調整されたオープンソースモデルです。プロンプトを分析すると、そのテキストが安全か非安全かを答え、特定のカテゴリーを提供します。こちらに記載されているように、デフォルトのカテゴリを表示しています。Llama 3は知識の遮断が固定されているため、レコード、および選挙のような特定のカテゴリーは非常に緊急性の高いものです。その結果、モデルは学習後に出現したイベントやコンテキストを完全に取得できない可能性があります。この点に依存する場合は、その点を念頭に置いておくことが重要です。

今のところ、13のデフォルトカテゴリをカバーしています。モデルのゼロショット機能を活用して、将来的に対象範囲を拡大していく予定です。

将来の検出のためのスケーラブルなアーキテクチャ

Firewall for AIは、Llama Guardを含め、目立った遅延を発生させることなく拡張できるように設計しました。そして、新しい検出モデルを追加した場合でも変わりません。

そのために、新しい非同期アーキテクチャを構築しました。Firewall for AIで保護されているアプリケーションにリクエストが送信されると、Cloudflare Workerは、個人を特定できる情報用、安全でないトピック用などの検出モジュールに並列の非ブロッキングリクエストを行います。

Cloudflareネットワークのおかげで、この設計はすぐに大量のリクエストを処理できるように拡張でき、新しい検出を追加しても遅延が増加しません。使用される最も遅いモデルによってのみ制限されることになります。

ガードレール検出の幅を十分に保ちながら、モデルのユーティリティを最大限に維持するように最適化します。

Llama Guardは比較的大規模なモデルであるため、遅延を最小限に抑えながら大規模に実行することが課題となっています。当社の大規模な高性能GPUを活用し、Workers AI上にデプロイしています。このインフラにより、ネットワーク全体で高速かつ信頼性の高い推論を提供できるようになります。

採用が拡大してもシステムが高速で信頼性を維持できるようにするため、実際のトラフィックに備えて、さまざまなプロンプトサイズのプロンプトを使用して、予想される1秒あたりのリクエスト数（RPS）をシミュレートした広範な負荷テストを実施しました。これに対処するため、ネットワークにデプロイされるモデルインスタンスの数は負荷に応じて自動的に拡張します。当社はコンカレンシーを採用して遅延を最低限に抑え、ハードウェア使用率を最適化しています。また、各分析に2秒のハードしきい値を強制します。この時間制限に達した場合は、すでに完了した検出に戻し、お客様のアプリケーションのリクエスト遅延にさらなる影響が及ばないようにします。

検出からセキュリティルールの適用まで

Firewall for AIは、ボット管理やWAF Attack Scoreなどの他のアプリケーションセキュリティ機能と同じパターンに従っているため、簡単に導入できます。

有効にすると、セキュリティ分析と拡張ログに新しいフィールドが表示されます。そこから、安全でないトピックによってフィルタリングしたり、経時的な傾向を追跡したり、個々のリクエストの結果を掘り下げて、すべての検出結果を確認することができます。たとえば、安全でないトピックを検出したか、カテゴリーは何かなど。リクエスト本文（プロンプト自体は保存も公開もされません。分析の結果のみが記録されます

分析を確認した後、カスタムルールのプロンプトカテゴリに基づいて、ログまたはブロックするルールを作成することで、安全でないトピックのモデレーションを適用できます。

たとえば、性的なコンテンツやヘイトスピーチとしてフラグが立てられたプロンプトを記録し、レビューすることができます。

この表現を使用することができます： If (any(cf.llm.prompt.unsafe_topic_categories[*] in {"S10" "S12"})) then Logまたは、以下のスクリーンショットのようにダッシュボードのカテゴリーフィールドでルールをデプロイします。

すべての安全でないプロンプトを完全にブロックすることで、より広範なアプローチをとることもできます。 If (cf.llm.prompt.unsafe_topic_detected)then Block

これらのルールは、プロンプトを含むすべての検出されたHTTPリクエストに自動的に適用され、AIトラフィック全体に一貫したガードレールが適用されます。

今後の展開

今後数週間で、Firewall for AIはプロンプトインジェクションと脱獄の試みを検出できるように拡張します。また、チームが検出結果をより適切に検証できるように、分析とログの可視性を高める方法についても検討しています。当社のロードマップの重要な部分は、モデルレスポンス処理を追加することで、LLMに入るものだけでなく、出てくるものも制御できるようにするものです。トークンのレート制限やより安全なカテゴリーのサポートなど、追加の不正利用制御も予定されています。

Firewall for AIは、現在ベータ版でご利用いただけます。Cloudflareをはじめて利用される方で、これらのAI保護の実装方法についてお知りになりたい方は、コンサルテーションをご利用ください。すでにCloudflareをご利用中の方は、アカウントチームに連絡してアクセスを取得し、実際のトラフィックでテストを開始してください。

Cloudflareはまた、AIセキュリティに焦点を当てたユーザー調査プログラムを開始しています。新機能のプレビューにご関心がある方やロードマップを作成したい方は、こちらからその旨をご連絡ください。

Cloudflare ブログ

Firewall for AIを使用して、LLMエンドポイントを狙う危険なプロンプトを遮断

アプリケーションセキュリティにおけるAI保護

安全でないコンテンツのモデレーションがビジネスとユーザーを保護

モデルに到達する前の安全でないプロンプトを検出する

内部の動作

安全でないトピックの検出

将来の検出のためのスケーラブルなアーキテクチャ

検出からセキュリティルールの適用まで

今後の展開

Replicate、Cloudflareと提携

Workers VPCサービスが世界中どこからでもお客様のリージョンプライベートネットワークに接続する仕組み

Defending QUIC from acknowledgement-based DDoS attacks

One IP address, many users: detecting CGNAT to reduce collateral effects