新規投稿のお知らせを受信されたい方は、サブスクリプションをご登録ください:

最先端の画像生成モデル「Leonardo」と音声合成モデル「Deepgram」が、Workers AIで利用可能になりました

2025-08-27

4分で読了
この投稿はEnglishでも表示されます。

このコンテンツは自動機械翻訳サービスによる翻訳版であり、皆さまの便宜のために提供しています。原本の英語版と異なる誤り、省略、解釈の微妙な違いが含まれる場合があります。ご不明な点がある場合は、英語版原本をご確認ください。

Workers AIを立ち上げたとき、私たちはAIモデルがより速く、より小さくなることになると賭けました。私たちはこの仮説に基づいてインフラストラクチャを構築し、世界中のデータセンターに可能な限り速く推論を提供できる専用のGPUを追加しました。当社は、できる限り汎用的なプラットフォームを構築しましたが、低遅延の画像生成やリアルタイムの音声ボイスエージェントなど、当社のインフラストラクチャに適したニッチなユースケースも特定しました。これらのユースケースに目を向けるため、これらのアプリケーションの開発をより簡単にするための新しいモデルをいくつか導入しています。

本日、モデルカタログを拡大し、このユースケースに適合するクローズドソースパートナーモデルも含めることを発表でき、嬉しく思います。Leonardo.AiDeepgramと提携し、Cloudflareのインフラ上でホストされているWorkers AIに最新かつ最高のモデルを提供します。LeonardoとDeepgramはどちらも、Workers AIのインフラストラクチャに適した優れた速度比のモデルを提供しています。まずは、これらの優れたパートナーから始めますが、他のパートナーモデルにもカタログを拡大していく予定です。

Workers AIでこれらのモデルを使うメリットは、スタンドアロンの推論サービスだけでなく、AIを中心にアプリケーション全体を構築できるDeveloperプロダクトのスイート全体があることです。画像生成プラットフォームを構築する場合、Workersでアプリケーションロジックをホストし、Workers AIで画像生成、ストレージでR2、メディアの配信と変換でImagesを使うことができます。リアルタイム音声エージェントを構築している場合、Workersを介してWebRTCとWebSocketのサポート、Workers AIによる音声テキスト変換、テキスト音声変換、および検出モデル、Cloudflare Realtimeによるオーケストレーションレイヤーを提供します。全体として、Cloudflareには独自の利点があると考えるユースケースを分析し、それをサポートする開発者ツールを使用して、お客様が当社の総合開発者プラットフォーム上で最高のAIアプリケーションを構築できるようにしたいと考えています。 .

Leonardo Models

Leonardo.Aiは、独自のモデルをトレーニングし、顧客が生成メディアを作成できるようにプラットフォームをホストする生成AIメディアラボです。Workers AIチームはしばらくの間、Leonardoと協力し、同社の画像生成モデルのマジックを直接体験してきました。Leonardoの2つの画像生成モデルを導入できることを嬉しく思います:@cf/leonardo/phoenix-1.0と@cf/leonardo/lucid-origin。

「当社は、ゲーム用のキャラクター画像の作成、Webサイトのパーソナライズされた画像の生成、その他さまざまな用途に、Cloudflareのお客様が当社の画像生成技術を拡張し、使用できる新しい手段をWorkersを通じて提供できることを嬉しく思います。 AIとCloudflare開発者プラットフォーム」 - Leonardo.Ai 、CTO、 Peter Runham氏

Phoenixモデルは、Leonardoによって一から訓練され、テキストのレンダリングやプロンプトの一貫性などに優れています。全画像生成リクエストには、1024x1024の画像で25ステップ、エンドツーエンドで4.89秒かかりました。

curl --request POST \
  --url https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/leonardo/phoenix-1.0 \
  --header 'Authorization: Bearer {TOKEN}' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "A 1950s-style neon diner sign glowing at night that reads '\''OPEN 24 HOURS'\'' with chrome details and vintage typography.",
    "width":1024,
    "height":1024,
    "steps": 25,
    "seed":1,
    "guidance": 4,
    "negative_prompt": "bad image, low quality, signature, overexposed, jpeg artifacts, undefined, unclear, Noisy, grainy, oversaturated, overcontrasted"
}'
BLOG-2903 2

Lucid Originモデルは、Leonardoのモデルファミリーに最近追加されたもので、写真現実的なimagesを生成するのが得意です。この画像は、25ステップのエンドツーエンドで、1024x1024の画像サイズを生成するのに4.38秒かかりました。

curl --request POST \
  --url https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/leonardo/lucid-origin \
  --header 'Authorization: Bearer {TOKEN}' \
  --header 'Content-Type: application/json' \
  --data '{
    "prompt": "A 1950s-style neon diner sign glowing at night that reads '\''OPEN 24 HOURS'\'' with chrome details and vintage typography.",
    "width":1024,
    "height":1024,
    "steps": 25,
    "seed":1,
    "guidance": 4,
    "negative_prompt": "bad image, low quality, signature, overexposed, jpeg artifacts, undefined, unclear, Noisy, grainy, oversaturated, overcontrasted"
}'
BLOG-2903 3

Deepgramモデル

Deepgramは、独自の音声モデルを開発する音声AI企業で、ユーザーが自然な人間のインターフェースである音声を通じてAIと対話できるようにしています。音声は、テキストよりも高い帯域幅を伝送し、ペーシング、イントネーションなどの他の音声信号を持っているため、エキサイティングなインターフェイスです。私たちがプラットフォームに導入しているDeepgramモデルは、非常に高速な音声からテキストへの推論、およびテキストから音声への推論を実行する音声モデルです。Workers AIインフラストラクチャと組み合わせることで、これらのモデルは、お客様が低遅延の音声エージェントなどを構築できるようにする、当社独自のインフラストラクチャを紹介します。

「CloudflareのWorkers AI上で音声モデルをホストすることにより、開発者は超低遅延でリアルタイムの表現力豊かな音声エージェントを作成できるようになりました。Cloudflareのグローバルネットワークにより、AIコンピューティングをあらゆる場所のユーザーに近づけることができ、お客様は複雑なインフラストラクチャを気にすることなく、超高速の会話型AIエクスペリエンスを提供できるようになりました。」- Adam Syp関係者、Deepgram、CTO

@cf/deepgram/nova-3は、高い精度で音声を迅速に文字起こしできる音声テキストモデルです。@cf/deepgram/aura-1は、文脈を認識するテキスト音声モデルで、入力されたテキストに基づいて自然なペースと表現力を適用することができます。新しいAura 2モデルは、まもなくWorkers AIで利用可能になります。また、バイナリmp3ファイルのWorkers AIへの送信エクスペリエンスも改善したので、これまで必要だったようにUint8配列に変換する必要はありません。Realtimeの発表(近日公開予定!)とともに、これらの音声モデルは、お客様がCloudflare上で直接音声エージェントを構築できるようにするための鍵となります。

AIバインディングの場合、Nova 3の音声からテキストへのモデルの呼び出しは次のようになります:

const URL = "https://www.some-website.com/audio.mp3";
const mp3 = await fetch(URL);
 
const res = await env.AI.run("@cf/deepgram/nova-3", {
    "audio": {
      body: mp3.body,
      contentType: "audio/mpeg"
    },
    "detect_language": true
  });

REST APIの場合は、次のようになります。

curl --request POST \
  --url 'https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/deepgram/nova-3?detect_language=true' \
  --header 'Authorization: Bearer {TOKEN}' \
  --header 'Content-Type: audio/mpeg' \
  --data-binary @/path/to/audio.mp3

また、Deepgramモデルに WebSocket サポートを追加しました。これにより、推論サーバーへの接続をライブのまま維持して、双方向の入出力に使用することができます。WebSocketサポートでNovaモデルを使用する場合は、開発者向けドキュメントを参照してください。

これらの要素が連携することで、次のことが可能になります。

  1. Cloudflare RealtimeであらゆるWebRTCソースからの音声をキャプチャ

  2. WebSocket経由で処理パイプラインにパイプライン接続

  3. Workers AI上で音声MLモデルDeepgramを実行して文字起こし

  4. Workers AIでホストまたはAI Gateway経由でプロキシされたモデルを通じて、選択したLLMで処理

  5. リアルタイムエージェントですべてをオーケストレーション

これらのモデルを今すぐお試しください

Workers AIで利用可能な最新のパートナーモデルの詳細、価格、利用開始方法については、開発者向けドキュメントをご確認ください。

Cloudflareは企業ネットワーク全体を保護し、お客様がインターネット規模のアプリケーションを効率的に構築し、あらゆるWebサイトやインターネットアプリケーションを高速化し、DDoS攻撃を退けハッカーの侵入を防ぎゼロトラスト導入を推進できるようお手伝いしています。

ご使用のデバイスから1.1.1.1 にアクセスし、インターネットを高速化し安全性を高めるCloudflareの無料アプリをご利用ください。

より良いインターネットの構築支援という当社の使命について、詳しくはこちらをご覧ください。新たなキャリアの方向性を模索中の方は、当社の求人情報をご覧ください。
AI WeekAI開発者プラットフォーム開発者Cloudflare WorkersWorkers AI

Xでフォロー

Michelle Chen|@_mchenco
Cloudflare|@cloudflare

関連ブログ投稿