Cloudflare AI 平台：為智慧體設計的推斷層

AI 模型發展迅速：今日用於智慧編碼的最佳模型，三個月後可能就變成來自不同提供者的完全不同的模型。除此之外，實際應用情境往往需要呼叫多個模型。您的客服智慧體可能會使用一個快速、便宜的模型來對使用者的訊息進行分類；一個大型的推斷模型來規劃行動；以及一個輕量級的模型來執行個別任務。

這意味著您需要能夠存取所有模型，同時在財務與營運上不被單一供應商綁死。您還需要適當的系統來監控跨提供者的成本、在其中一個提供者服務中斷時確保可靠性，以及無論使用者身在何處都能管理延遲。

這些挑戰在您使用 AI 進行開發時始終存在，但在建置智慧體時變得更加迫切。一個簡單的聊天機器人可能針對每個使用者提示進行一次推斷呼叫。而一個智慧體可能會為了完成單一任務而串聯十次呼叫，此時某個緩慢的提供者就不只是增加 50 毫秒，而是增加 500 毫秒。一個失敗的請求也不只是重試一次那麼簡單，而是可能引發一連串的下游故障。

自從推出 AI Gateway 與 Workers AI 以來，我們看到在 Cloudflare 上建置 AI 應用程式的開發人員採用的程度高得驚人，我們也不斷快速推出新功能以跟上腳步！僅僅在過去幾個月，我們已經更新了儀表板、新增了零設定的預設閘道、上游故障時的自動重試，以及更細緻的記錄控制功能。今天，我們要把 Cloudflare 打造成一個統一的推斷層：只要一個 API，就能存取任何提供者的任何 AI 模型，而且速度快、可靠性高。

一個目錄，一個統一端點

從今天開始，您可以使用與 Workers AI 相同的 AI.run() 繫結來呼叫第三方模型。如果您正在使用 Workers，將 Cloudflare 代管的模型切換到 OpenAI、Anthropic 或任何其他提供者的模型，只需要改一行程式碼。

const response = await env.AI.run('anthropic/claude-opus-4-6',{
input: 'What is Cloudflare?',
}, {
gateway: { id: "default" },
});

對於不使用 Workers 的開發人員，我們將在接下來幾週內推出 REST API 支援，讓您能從任何環境存取完整的模型目錄。

我們也很高興地宣布，您現在將可以存取橫跨 12 家以上提供者的 70 多個模型——全部透過一個 API、一行切換模型的程式碼，以及一套付費點數就能搞定。而且我們正在持續快速擴充中。

您可以瀏覽我們的模型目錄，為您的使用情境找到最適合的模型，從 Cloudflare Workers AI 代管的開源模型，到各大模型提供者的專有模型。我們很高興能擴展對來自 Alibaba Cloud、AssemblyAI、Bytedance、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway 和 Vidu 之模型的存取——這些提供者將透過 AI Gateway 提供他們的模型。值得注意的是，我們正在擴展我們的模型供應，納入影像、影片和語音模型，讓您能夠建置多模態應用程式。

透過單一 API 存取所有模型，也代表您可以在同一個地方管理所有的 AI 支出。現今多數公司平均呼叫來自多個提供者的 3.5 個模型，這意味著沒有任何單一提供者能為您提供 AI 使用狀況的全面檢視。有了 AI Gateway，您將獲得一個集中位置來監控和管理 AI 支出。

透過在請求中加入自訂的中繼資料，您可以根據自己最關心的屬性（例如免費與付費使用者的支出、個別客戶的支出，或應用程式中特定工作流程的支出）來細分您的成本。

const response = await env.AI.run('@cf/moonshotai/kimi-k2.5',
      {
prompt: 'What is AI Gateway?'
      },
      {
metadata: { "teamId": "AI", "userId": 12345 }
      }
    );

自帶模型

AI Gateway 讓您可以透過一個 API 存取所有提供者的模型。但有時候，您需要執行一個基於自有資料進行微調的模型，或是針對特定使用情境最佳化的模型。為此，我們正在努力讓使用者能夠將自己的模型帶到 Workers AI 上。

我們絕大部分的流量來自企業客戶的專用執行個體，這些客戶在我們的平台上執行自訂模型。我們希望能將此功能推廣給更多客戶。為了做到這一點，我們利用 Replicate 的 Cog 技術來協助您將機器學習模型容器化。

Cog 的設計相當簡單：您只需要在 cog.yaml 檔案中寫下相依項，並在一個 Python 檔案中撰寫推斷程式碼即可。Cog 抽象化了打包 ML 模型時的所有困難部分，例如 CUDA 相依性、Python 版本、權重載入等。

cog.yaml 檔案範例：

build:
  python_version: "3.13"
  python_requirements: requirements.txt
predict: "predict.py:Predictor"

predict.py 檔案範例，其中包含一個設定模型的函數，以及一個在收到推斷請求（預測）時執行的函數：

from cog import BasePredictor, Path, Input
import torch

class Predictor(BasePredictor):
    def setup(self):
        """Load the model into memory to make running multiple predictions efficient"""
        self.net = torch.load("weights.pth")

    def predict(self,
            image: Path = Input(description="Image to enlarge"),
            scale: float = Input(description="Factor to scale image by", default=1.5)
    ) -> Path:
        """Run a single prediction on the model"""
        # ... pre-processing ...
        output = self.net(input)
        # ... post-processing ...
        return output

接著，您可以執行 cog build 來建置您的容器映像檔，然後將您的 Cog 容器推送到 Workers AI。我們將為您部署並提供模型，之後您就可以透過平常使用的 Workers AI API 來存取它。

我們正在進行一些大型專案，希望能將此功能推廣給更多客戶，例如面向客戶的 API 和 Wrangler 指令，讓您可以推送自己的容器，以及透過 GPU 快照來實現更快的冷啟動。目前，我們正與 Cloudflare 內部團隊及部分外部客戶合作進行內部測試。如果您有興趣成為我們的設計夥伴，請與我們聯絡！很快，任何人都將能夠打包他們的模型並透過 Workers AI 使用。

通往首個詞元的最短路徑

如果您正在建置即時智慧體，將 Workers AI 模型與 AI Gateway 搭配使用會特別強大——因為使用者對速度的感受取決於「首個詞元回應時間」或智慧體開始回應的速度，而非整個回應需要多長時間。即使總推斷時間長達 3 秒，只要能讓第一個詞元提早 50 毫秒送達，就能讓一個智慧體從看似反應遲鈍，變得感覺靈敏快速。

Cloudflare 遍布全球 330 座城市的資料中心網路，意味著 AI Gateway 同時鄰近使用者與推斷端點，能將串流開始前的網路時間降到最低。

Workers AI 也在其公開目錄中代管了多個開源模型，現在更包含了專為智慧體打造的大型模型，例如 Kimi K2.5 以及即時語音模型。當您透過 AI Gateway 呼叫這些 Cloudflare 代管的模型時，完全不需要額外經過公開網際網路的跳轉，因為您的程式碼與推斷在同一個全球網路上執行，能為您的智慧體提供最低的可能延遲。

專為可靠性而生，具備自動容錯移轉

在建置智慧體時，速度並非使用者唯一關心的因素——可靠性也同樣重要。智慧體工作流程中的每一個步驟，都依賴於它之前的步驟。可靠的推斷對智慧體至關重要，因為一個呼叫失敗可能會影響整個下游鏈。

透過 AI Gateway，如果您呼叫的模型在多個提供者上都有提供，而其中一個提供者發生服務中斷，我們會自動將請求路由到另一個可用的提供者，您完全不需要自己撰寫任何容錯移轉邏輯。

如果您使用 Agents SDK 來建置長時間執行的智慧體，您的串流拖段呼叫同樣具備針對連線中斷的復原能力。AI Gateway 會在串流回應產生時將其暫存，這與您的智慧體的生命週期無關。如果您的智慧體在推斷中途被打斷，它可以重新連線到 AI Gateway 並取回回應，而不必重新進行一次推斷呼叫，也不必為相同的輸出詞元重複付費。再結合 Agents SDK 內建的檢查點功能，最終使用者完全不會察覺到任何異狀。

Replicate

Replicate 團隊已經正式加入我們的 AI 平台團隊，我們甚至不再認為我們是兩個分開的團隊。我們一直致力於 Replicate 和 Cloudflare 之間的整合，包括將所有 Replicate 模型導入 AI Gateway，並將託管模型遷移到 Cloudflare 基礎架構上。很快地，您將能夠透過 AI Gateway 存取您在 Replicate 上喜愛的模型，也能將您部署在 Replicate 上的模型託管到 Workers AI 上。

開始使用

要開始使用，請查閱我們的 AI Gateway 或 Workers AI 技術文件。深入瞭解如何利用 Agents SDK 在 Cloudflare 平台上建立智慧體。

Cloudflare 部落格

Cloudflare AI 平台：為智慧體設計的推斷層

一個目錄，一個統一端點

自帶模型

通往首個詞元的最短路徑

專為可靠性而生，具備自動容錯移轉

Replicate

開始使用

在 Cloudflare TV 上觀看

Announcing Claude Compliance API support with Cloudflare CASB

Announcing Claude Managed Agents on Cloudflare

Project Glasswing：Mythos 向我們展示了什麼

Browser Run 現在執行於 Cloudflare Containers 之上，速度更快，擴展性更強