最先端の画像生成モデル「Leonardo」と音声合成モデル「Deepgram」が、Workers AIで利用可能になりました

このコンテンツは自動機械翻訳サービスによる翻訳版であり、皆さまの便宜のために提供しています。原本の英語版と異なる誤り、省略、解釈の微妙な違いが含まれる場合があります。ご不明な点がある場合は、英語版原本をご確認ください。

Workers AIを立ち上げたとき、私たちはAIモデルがより速く、より小さくなることになると賭けました。私たちはこの仮説に基づいてインフラストラクチャを構築し、世界中のデータセンターに可能な限り速く推論を提供できる専用のGPUを追加しました。当社は、できる限り汎用的なプラットフォームを構築しましたが、低遅延の画像生成やリアルタイムの音声ボイスエージェントなど、当社のインフラストラクチャに適したニッチなユースケースも特定しました。これらのユースケースに目を向けるため、これらのアプリケーションの開発をより簡単にするための新しいモデルをいくつか導入しています。

本日、モデルカタログを拡大し、このユースケースに適合するクローズドソースパートナーモデルも含めることを発表でき、嬉しく思います。Leonardo.AiとDeepgramと提携し、Cloudflareのインフラ上でホストされているWorkers AIに最新かつ最高のモデルを提供します。LeonardoとDeepgramはどちらも、Workers AIのインフラストラクチャに適した優れた速度比のモデルを提供しています。まずは、これらの優れたパートナーから始めますが、他のパートナーモデルにもカタログを拡大していく予定です。

Workers AIでこれらのモデルを使用する利点は、スタンドアロンの推論サービスだけでなく、AIを中心としたアプリケーション全体を構築できる開発者向け製品のスイート全体を利用できることにあります。画像生成プラットフォームを構築している場合、Workersでアプリケーションロジックをホストし、Workers AIで画像を生成し、R2で保存し、Imagesでメディアの配信と変換を行うこともできます。リアルタイムの音声エージェントを構築する場合、Workersを介したWebRTCとWebSocketのサポート、Workers AIを介した音声テキスト入力、テキスト入力音声のサポート、Workers AIを介したターン検出モデル、Cloudflare Realtimeを介したオーケストレーションレイヤーを提供します。全体として、Cloudflareだけが持つ優れていると思われるユースケースを検討し、開発者ツールがそれをバックアップすることで、包括的な開発者プラットフォーム上で最高のAIアプリケーションを構築できるようにしたいと考えています。 .

Leonardo Models

Leonardo.Aiは、独自のモデルをトレーニングし、顧客が生成メディアを作成できるようにプラットフォームをホストする生成AIメディアラボです。Workers AIチームはしばらくの間、Leonardoと協力し、同社の画像生成モデルのマジックを直接体験してきました。Leonardoの2つの画像生成モデルを導入できることを嬉しく思います：@cf/leonardo/phoenix-1.0と@cf/leonardo/lucid-origin。

「当社は、ゲーム用のキャラクター画像の作成、Webサイトのパーソナライズされた画像の生成、その他さまざまな用途に、Cloudflareのお客様が当社の画像生成技術を拡張し、使用できる新しい手段をWorkersを通じて提供できることを嬉しく思います。 AIとCloudflare開発者プラットフォーム」 - Leonardo.Ai 、CTO、 Peter Runham氏

Phoenixモデルは、Leonardoによって一から訓練され、テキストのレンダリングやプロンプトの一貫性などに優れています。全画像生成リクエストには、1024x1024の画像で25ステップ、エンドツーエンドで4.89秒かかりました。

curl --request POST \
  --url https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/leonardo/phoenix-1.0 \
  --header 'Authorization: Bearer {TOKEN}' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "A 1950s-style neon diner sign glowing at night that reads '\''OPEN 24 HOURS'\'' with chrome details and vintage typography.",
    "width":1024,
    "height":1024,
    "steps": 25,
    "seed":1,
    "guidance": 4,
    "negative_prompt": "bad image, low quality, signature, overexposed, jpeg artifacts, undefined, unclear, Noisy, grainy, oversaturated, overcontrasted"
}'

Lucid Originモデルは、Leonardoのモデルファミリーに最近追加されたもので、写真現実的なimagesを生成するのが得意です。この画像は、25ステップのエンドツーエンドで、1024x1024の画像サイズを生成するのに4.38秒かかりました。

curl --request POST \
  --url https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/leonardo/lucid-origin \
  --header 'Authorization: Bearer {TOKEN}' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "A 1950s-style neon diner sign glowing at night that reads '\''OPEN 24 HOURS'\'' with chrome details and vintage typography.",
    "width":1024,
    "height":1024,
    "steps": 25,
    "seed":1,
    "guidance": 4,
    "negative_prompt": "bad image, low quality, signature, overexposed, jpeg artifacts, undefined, unclear, Noisy, grainy, oversaturated, overcontrasted"
}'

Deepgramモデル

Deepgramは、独自の音声モデルを開発する音声AI企業で、ユーザーが自然な人間のインターフェースである音声を通じてAIと対話できるようにしています。音声は、テキストよりも高い帯域幅を伝送し、ペーシング、イントネーションなどの他の音声信号を持っているため、エキサイティングなインターフェイスです。私たちがプラットフォームに導入しているDeepgramモデルは、非常に高速な音声からテキストへの推論、およびテキストから音声への推論を実行する音声モデルです。Workers AIインフラストラクチャと組み合わせることで、これらのモデルは、お客様が低遅延の音声エージェントなどを構築できるようにする、当社独自のインフラストラクチャを紹介します。

「CloudflareのWorkers AI上で音声モデルをホストすることにより、開発者は超低遅延でリアルタイムの表現力豊かな音声エージェントを作成できるようになりました。Cloudflareのグローバルネットワークにより、AIコンピューティングをあらゆる場所のユーザーに近づけることができ、お客様は複雑なインフラストラクチャを気にすることなく、超高速の会話型AIエクスペリエンスを提供できるようになりました。」- Adam Syp関係者、Deepgram、CTO

@cf/deepgram/nova-3は、高い精度で音声を迅速に文字起こしできる音声テキストモデルです。@cf/deepgram/aura-1は、文脈を認識するテキスト音声モデルで、入力されたテキストに基づいて自然なペースと表現力を適用することができます。新しいAura 2モデルは、まもなくWorkers AIで利用可能になります。また、バイナリmp3ファイルのWorkers AIへの送信エクスペリエンスも改善したので、これまで必要だったようにUint8配列に変換する必要はありません。Realtimeの発表（近日公開予定！）とともに、これらの音声モデルは、お客様がCloudflare上で直接音声エージェントを構築できるようにするための鍵となります。

AIバインディングの場合、Nova 3の音声からテキストへのモデルの呼び出しは次のようになります：

const URL = "https://www.some-website.com/audio.mp3";
const mp3 = await fetch(URL);
 
const res = await env.AI.run("@cf/deepgram/nova-3", {
    "audio": {
      body: mp3.body,
      contentType: "audio/mpeg"
    },
    "detect_language": true
  });

REST APIの場合は、次のようになります。

curl --request POST \
  --url 'https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/deepgram/nova-3?detect_language=true' \
  --header 'Authorization: Bearer {TOKEN}' \
  --header 'Content-Type: audio/mpeg' \
  --data-binary @/path/to/audio.mp3

また、Deepgramモデルに WebSocket サポートを追加しました。これにより、推論サーバーへの接続をライブのまま維持して、双方向の入出力に使用することができます。WebSocketサポートでNovaモデルを使用する場合は、開発者向けドキュメントを参照してください。

これらの要素が連携することで、次のことが可能になります。

Cloudflare RealtimeであらゆるWebRTCソースからの音声をキャプチャ
WebSocket経由で処理パイプラインにパイプライン接続
Workers AI上で音声MLモデルDeepgramを実行して文字起こし
Workers AIでホストまたはAI Gateway経由でプロキシされたモデルを通じて、選択したLLMで処理
リアルタイムエージェントですべてをオーケストレーション

これらのモデルを今すぐお試しください

Workers AIで利用可能な最新のパートナーモデルの詳細、価格、利用開始方法については、開発者向けドキュメントをご確認ください。

Cloudflareは企業ネットワーク全体を保護し、お客様がインターネット規模のアプリケーションを効率的に構築し、あらゆるWebサイトやインターネットアプリケーションを高速化し、DDoS攻撃を退け、ハッカーの侵入を防ぎ、ゼロトラスト導入を推進できるようお手伝いしています。

ご使用のデバイスから1.1.1.1 にアクセスし、インターネットを高速化し安全性を高めるCloudflareの無料アプリをご利用ください。

より良いインターネットの構築支援という当社の使命について、詳しくはこちらをご覧ください。新たなキャリアの方向性を模索中の方は、当社の求人情報をご覧ください。

Cloudflare ブログ

最先端の画像生成モデル「Leonardo」と音声合成モデル「Deepgram」が、Workers AIで利用可能になりました

Leonardo Models

Deepgramモデル

これらのモデルを今すぐお試しください

Sandboxing AI agents, 100x faster

Powering the agents: Workers AI now runs large models, starting with Kimi K2.5

Slashing agent token costs by 98% with RFC 9457-compliant error responses

AI Security for Appsの一般提供を開始しました