訂閱以接收新文章的通知:

Cloudflare AI 平台:為智慧體設計的推斷層

2026-04-16

閱讀時間:5 分鐘
本貼文還提供以下語言版本:English日本語한국어简体中文

AI 模型發展迅速:今日用於智慧編碼的最佳模型,三個月後可能就變成來自不同提供者的完全不同的模型。除此之外,實際應用情境往往需要呼叫多個模型。您的客服智慧體可能會使用一個快速、便宜的模型來對使用者的訊息進行分類;一個大型的推斷模型來規劃行動;以及一個輕量級的模型來執行個別任務。

這意味著您需要能夠存取所有模型,同時在財務與營運上不被單一供應商綁死。您還需要適當的系統來監控跨提供者的成本、在其中一個提供者服務中斷時確保可靠性,以及無論使用者身在何處都能管理延遲。

這些挑戰在您使用 AI 進行開發時始終存在,但在建置智慧體時變得更加迫切。一個簡單的聊天機器人可能針對每個使用者提示進行一次推斷呼叫。而一個智慧體可能會為了完成單一任務而串聯十次呼叫,此時某個緩慢的提供者就不只是增加 50 毫秒,而是增加 500 毫秒。一個失敗的請求也不只是重試一次那麼簡單,而是可能引發一連串的下游故障。

自從推出 AI Gateway 與 Workers AI 以來,我們看到在 Cloudflare 上建置 AI 應用程式的開發人員採用的程度高得驚人,我們也不斷快速推出新功能以跟上腳步!僅僅在過去幾個月,我們已經更新了儀表板、新增了零設定的預設閘道、上游故障時的自動重試,以及更細緻的記錄控制功能。今天,我們要把 Cloudflare 打造成一個統一的推斷層:只要一個 API,就能存取任何提供者的任何 AI 模型,而且速度快、可靠性高。

一個目錄,一個統一端點

從今天開始,您可以使用與 Workers AI 相同的 AI.run() 繫結來呼叫第三方模型。如果您正在使用 Workers,將 Cloudflare 代管的模型切換到 OpenAI、Anthropic 或任何其他提供者的模型,只需要改一行程式碼。

const response = await env.AI.run('anthropic/claude-opus-4-6',{
input: 'What is Cloudflare?',
}, {
gateway: { id: "default" },
});

對於不使用 Workers 的開發人員,我們將在接下來幾週內推出 REST API 支援,讓您能從任何環境存取完整的模型目錄。

我們也很高興地宣布,您現在將可以存取橫跨 12 家以上提供者的 70 多個模型——全部透過一個 API、一行切換模型的程式碼,以及一套付費點數就能搞定。而且我們正在持續快速擴充中。

您可以瀏覽我們的模型目錄,為您的使用情境找到最適合的模型,從 Cloudflare Workers AI 代管的開源模型,到各大模型提供者的專有模型。我們很高興能擴展對來自 Alibaba Cloud、AssemblyAI、Bytedance、Google、InWorld、MiniMax、OpenAI、Pixverse、Recraft、Runway 和 Vidu 之模型的存取——這些提供者將透過 AI Gateway 提供他們的模型。值得注意的是,我們正在擴展我們的模型供應,納入影像、影片和語音模型,讓您能夠建置多模態應用程式。

BLOG-3209 2

透過單一 API 存取所有模型,也代表您可以在同一個地方管理所有的 AI 支出。現今多數公司平均呼叫來自多個提供者的 3.5 個模型,這意味著沒有任何單一提供者能為您提供 AI 使用狀況的全面檢視。有了 AI Gateway,您將獲得一個集中位置來監控和管理 AI 支出。

透過在請求中加入自訂的中繼資料,您可以根據自己最關心的屬性(例如免費與付費使用者的支出、個別客戶的支出,或應用程式中特定工作流程的支出)來細分您的成本。

const response = await env.AI.run('@cf/moonshotai/kimi-k2.5',
      {
prompt: 'What is AI Gateway?'
      },
      {
metadata: { "teamId": "AI", "userId": 12345 }
      }
    );
BLOG-3209 3

自帶模型

AI Gateway 讓您可以透過一個 API 存取所有提供者的模型。但有時候,您需要執行一個基於自有資料進行微調的模型,或是針對特定使用情境最佳化的模型。為此,我們正在努力讓使用者能夠將自己的模型帶到 Workers AI 上。

我們絕大部分的流量來自企業客戶的專用執行個體,這些客戶在我們的平台上執行自訂模型。我們希望能將此功能推廣給更多客戶。為了做到這一點,我們利用 Replicate 的 Cog 技術來協助您將機器學習模型容器化。

Cog 的設計相當簡單:您只需要在 cog.yaml 檔案中寫下相依項,並在一個 Python 檔案中撰寫推斷程式碼即可。Cog 抽象化了打包 ML 模型時的所有困難部分,例如 CUDA 相依性、Python 版本、權重載入等。

cog.yaml 檔案範例:

build:
  python_version: "3.13"
  python_requirements: requirements.txt
predict: "predict.py:Predictor"

predict.py 檔案範例,其中包含一個設定模型的函數,以及一個在收到推斷請求(預測)時執行的函數:

from cog import BasePredictor, Path, Input
import torch

class Predictor(BasePredictor):
    def setup(self):
        """Load the model into memory to make running multiple predictions efficient"""
        self.net = torch.load("weights.pth")

    def predict(self,
            image: Path = Input(description="Image to enlarge"),
            scale: float = Input(description="Factor to scale image by", default=1.5)
    ) -> Path:
        """Run a single prediction on the model"""
        # ... pre-processing ...
        output = self.net(input)
        # ... post-processing ...
        return output

接著,您可以執行 cog build 來建置您的容器映像檔,然後將您的 Cog 容器推送到 Workers AI。我們將為您部署並提供模型,之後您就可以透過平常使用的 Workers AI API 來存取它。

我們正在進行一些大型專案,希望能將此功能推廣給更多客戶,例如面向客戶的 API 和 Wrangler 指令,讓您可以推送自己的容器,以及透過 GPU 快照來實現更快的冷啟動。目前,我們正與 Cloudflare 內部團隊及部分外部客戶合作進行內部測試。如果您有興趣成為我們的設計夥伴,請與我們聯絡!很快,任何人都將能夠打包他們的模型並透過 Workers AI 使用。

通往首個詞元的最短路徑

如果您正在建置即時智慧體,將 Workers AI 模型與 AI Gateway 搭配使用會特別強大——因為使用者對速度的感受取決於「首個詞元回應時間」或智慧體開始回應的速度,而非整個回應需要多長時間。即使總推斷時間長達 3 秒,只要能讓第一個詞元提早 50 毫秒送達,就能讓一個智慧體從看似反應遲鈍,變得感覺靈敏快速。

Cloudflare 遍布全球 330 座城市的資料中心網路,意味著 AI Gateway 同時鄰近使用者與推斷端點,能將串流開始前的網路時間降到最低。

Workers AI 也在其公開目錄中代管了多個開源模型,現在更包含了專為智慧體打造的大型模型,例如 Kimi K2.5 以及即時語音模型。當您透過 AI Gateway 呼叫這些 Cloudflare 代管的模型時,完全不需要額外經過公開網際網路的跳轉,因為您的程式碼與推斷在同一個全球網路上執行,能為您的智慧體提供最低的可能延遲。

專為可靠性而生,具備自動容錯移轉

在建置智慧體時,速度並非使用者唯一關心的因素——可靠性也同樣重要。智慧體工作流程中的每一個步驟,都依賴於它之前的步驟。可靠的推斷對智慧體至關重要,因為一個呼叫失敗可能會影響整個下游鏈。

透過 AI Gateway,如果您呼叫的模型在多個提供者上都有提供,而其中一個提供者發生服務中斷,我們會自動將請求路由到另一個可用的提供者,您完全不需要自己撰寫任何容錯移轉邏輯。

如果您使用 Agents SDK 來建置長時間執行的智慧體,您的串流拖段呼叫同樣具備針對連線中斷的復原能力。AI Gateway 會在串流回應產生時將其暫存,這與您的智慧體的生命週期無關。如果您的智慧體在推斷中途被打斷,它可以重新連線到 AI Gateway 並取回回應,而不必重新進行一次推斷呼叫,也不必為相同的輸出詞元重複付費。再結合 Agents SDK 內建的檢查點功能,最終使用者完全不會察覺到任何異狀。

Replicate

Replicate 團隊已經正式加入我們的 AI 平台團隊,我們甚至不再認為我們是兩個分開的團隊。我們一直致力於 Replicate 和 Cloudflare 之間的整合,包括將所有 Replicate 模型導入 AI Gateway,並將託管模型遷移到 Cloudflare 基礎架構上。很快地,您將能夠透過 AI Gateway 存取您在 Replicate 上喜愛的模型,也能將您部署在 Replicate 上的模型託管到 Workers AI 上。

開始使用

要開始使用,請查閱我們的 AI GatewayWorkers AI 技術文件。深入瞭解如何利用 Agents SDK 在 Cloudflare 平台上建立智慧體。

在 Cloudflare TV 上觀看

我們保護整個企業網路,協助客戶有效地建置網際網路規模的應用程式,加速任何網站或網際網路應用程式抵禦 DDoS 攻擊,阻止駭客入侵,並且可以協助您實現 Zero Trust

從任何裝置造訪 1.1.1.1,即可開始使用我們的免費應用程式,讓您的網際網路更快速、更安全。

若要進一步瞭解我們協助打造更好的網際網路的使命,請從這裡開始。如果您正在尋找新的職業方向,請查看我們的職缺
Agents Week代理程式AIAI GatewayWorkers AI開發人員開發人員平台LLM

在 X 上進行關注

Ming Lu|/minglu
Michelle Chen|@_mchenco
Cloudflare|@cloudflare

相關貼文

2026年4月30日

Agents can now create Cloudflare accounts, buy domains, and deploy

Starting today, agents can now be Cloudflare customers. They can create a Cloudflare account, start a paid subscription, register a domain, and get back an API token to deploy code right away. Humans can be in the loop to grant permission, but there’s no need to go to the dashboard, copy and paste API tokens, or enter credit card details. ...

2026年4月22日

讓 Rust Workers 更加可靠:wasm‑bindgen 中的 panic 與 abort 復原

過去,Rust Workers 中的 panic(恐慌)是致命的,會損毀整個執行個體。透過與上游的 wasm‑bindgen 專案合作,Rust Workers 現在支援了具韌性的關鍵錯誤復原,包括使用 WebAssembly 異常處理 (WebAssembly Exception Handling) 進行 panic unwind(恐慌展開)。...