升級 Workers AI：正式上市以及更多新功能

歡迎來到星期二，這是我們 2024 年 Developer Week 的 AI 日！在這篇文章中，我們將簡要分享我們新的 AI 公告和願景，包括有關 Workers AI 正式進入 GA 階段並提高定價、GPU 硬體動力更新、擴大我們的 Hugging Face 合作夥伴關係、自備 LoRA 微調推理、Workers 中的 Python 支援、AI Gateway 中的更多提供者以及 Vectorize 中繼資料篩選。

Leveling up Workers AI: general availability and more new capabilities

Workers AI 正式上市

今天，我們很高興地宣布，我們的 Workers AI 推理平台現已正式上市。經過幾個月的公開測試，我們改進了服務以提供更高的可靠性和效能，公開了定價，並向我們的目錄中新增了更多模型。

提高效能和可靠性

藉助 Workers AI，我們的目標是使 AI 推理與 Cloudflare 網路的其他部分一樣可靠且易於使用。在幕後，我們升級了 Workers AI 中內建的負載平衡。現在可以將請求路由到更多城市的更多 GPU，並且每個城市都知道 AI 推理的可用總容量。如果請求需要在目前城市的佇列中等待，則可以將其路由到另一個位置，以便在流量較高時更快地將結果傳回給您。由此，我們提高了所有模型的速率限制——大多數 LLM 現在每分鐘有 300 個請求，而在測試階段每分鐘只有 50 個請求。較小模型的請求限制為每分鐘 1500-3000 個。查看我們的開發人員文件，瞭解各個模型的速率限制。

降低熱門模型的成本

除了 Workers AI 正式上市之外，我們還在本月前些時候發布了 10 個非測試版模型的定價計算器。我們希望 Workers AI 成為執行推理的最經濟實惠且易於存取的解決方案之一，因此我們對模型進行了一些最佳化，使其更加經濟實惠。現在，Llama 2 的執行成本比 3 月 1 日最初發布時便宜了 7 倍多，Mistral 7B 的執行成本便宜了 14 倍多。我們希望繼續成為 AI 推理的最佳平台，並將繼續為我們的客戶推出最佳化。

溫馨提示，我們的 Workers AI 非測試版模型的計費從 4 月 1 日開始，而測試版模型仍然免費且不受限制。我們每天免費向所有客戶提供 10,000 個神經元。Workers Free 客戶在 24 小時內使用 10,000 個神經元後將遇到硬速率限制，而 Workers Paid 客戶每增加 1000 個神經元將產生 0.011 美元的使用費。請閱讀我們的 Workers AI 定價開發人員文件，瞭解有關定價的最新資訊。

新的儀表板和試煉場最後，我們改進了Workers AI 儀表板和 AI 試煉場。Cloudflare 儀表板中的 Workers AI 頁面現在顯示跨模型使用情況的分析，包括神經元計算，以幫助您更好地預測定價。AI 試煉場可讓您快速測試和比較不同的模型並設定提示和參數。我們希望這些新工具可以幫助開發人員開始無縫地在 Workers AI 上進行建置——快來嘗試吧！

在全球 150 多個城市的 GPU 上執行推理

當我們在 2023 年 9 月宣布推出 Workers AI 時，我們就立志將 GPU 部署到我們世界各地的資料中心。我們計劃兌現這項承諾，並在 2024 年底之前在幾乎所有地方部署經過推理調整的 GPU，使我們成為分佈最廣泛的雲端 AI 推理平台。目前，我們已在 150 多個城市部署了 GPU，並將在年內繼續推廣到更多城市。

我們也將於 2024 年第二季推出配備 GPU 的新一代運算伺服器，這意味著比前幾代產品具有更好的效能、能源效率和更高的可靠性。我們在 2023 年 12 月的部落格文章中預告第 12 代運算伺服器設計，之後還將提供更多詳細資料。隨著第 12 代和未來規劃硬體的發布，下一步是支援更大的機器學習模型並在我們的平台上提供微調。這將使我們能夠實現更高的推理輸送量、更低的延遲和更高的生產工作負載可用性，並將支援擴展到新的工作負載類別（如微調）。

Huggingface 合作關係

我們也很高興能繼續與 Hugging Face 合作，將最好的開放原始碼帶給我們的客戶。現在，您可以造訪 Hugging Face 上一些最受歡迎的模型，只需按一下即可在 Workers AI 上輕鬆執行模型（如果在我們平台上可用）。

我們很高興地宣布，我們與 Hugging Face 聯合在我們的平台上新增了 4 個模型。現在您可以存取具有改進的上下文視窗的新 Mistral 7B v0.2 模型、Nous Research 的 Hermes 2 Pro 微調版本的 Mistral 7B、Google 的 Gemma 7B 以及根據 OpenChat 微調的 Starling-LM-7B-beta。目前，我們與 Hugging Face 合作推出了 14 個模型，可用於由 Cloudflare 的 Workers AI 平台提供支援的無伺服器 GPU 推理，更多模型即將推出。這些模型均使用 Hugging Face 的技術和 TGI 後端提供服務，我們與 Hugging Face 團隊密切合作，以策劃、最佳化和部署這些模式。

「我們很高興與 Cloudflare 合作，讓開發人員更容易使用 AI。對於 Hugging Face 社群來說，透過無伺服器 API 提供最受歡迎的開放模型，並由全球 GPU 提供支援，這是一個了不起的提議，我迫不及待地想看看他們用它建立了什麼。」- Hugging Face 聯合創辦人兼技術長 Julien Chaumond

您可以在此 Hugging Face Collection 中找到 Workers AI 支援的所有開放模型，並且「部署到 Cloudflare Workers AI」按鈕位於每個模型卡的頂部。要瞭解更多資訊，請閱讀 Hugging Face 的部落格文章並查看我們的開發人員文件以開始使用。想在 Workers AI 上看到某個模型？請在 Discord 上向我們傳送訊息並告知您的請求。

支援微調推理——BYO LoRA

微調推理是客戶對 Workers AI 呼聲最大的功能之一，而現在透過自備 (BYO) LoRA，我們又向前邁進了一步。使用流行的低秩適應方法，研究人員已經弄清楚如何攝取模型並調整_一些_模型參數以適應手頭上的工作，而不是像完全微調模型那樣重寫_所有_模型參數。這意味著您可以獲得微調的模型輸出，而無需付出完全微調模型的運算成本。

我們現在支援將經過訓練的 LoRA 引入 Workers AI，我們在執行階段將 LoRA 配接器套用至基礎模型，為您提供微調推理，而成本、規模和速度僅為完全微調模型的一小部分。未來，我們希望能夠直接在我們的平台上支援微調作業和完全微調模型，但我們很高興今天能夠透過 LoRA 向這一目標邁進一步。

截至今天，BYO LoRA 已針對 Gemma 2B 和 7B、Llama 2 7B 和 Mistral 7B 模型進行公開測試，LoRA 配接器大小可達 100MB，最大秩為 8，每個帳戶最多可擁有 30 個 LoRA。像往常一樣，我們希望您在使用 Workers AI 和我們新的 BYO LoRA 功能時牢記我們的服務條款，包括模型授權條款中包含的任何特定於模型的使用限制。

閱讀技術深入剖析部落格文章和開發人員文件以開始使用。

const response = await ai.run(
  "@cf/mistralai/mistral-7b-instruct-v0.2-lora", //the model supporting LoRAs
  {
      messages: [{"role": "user", "content": "Hello world"],
      raw: true, //skip applying the default chat template
      lora: "00000000-0000-0000-0000-000000000", //the finetune id OR name 
  }
);

用 Python 編寫 Workers

Python 是世界上第二流行的程式設計語言（僅次於 JavaScript），也是建立 AI 應用程式的首選語言。從今天開始，在公開測試版中，可以使用 Python 編寫 Cloudflare Workers。Python Workers 支援與 Cloudflare 上資源的所有綁定，包括 Vectorize、D1、KV、R2 等。

LangChain 是建立 LLM 支援之應用程式的最受歡迎框架，就像 Workers AI 使用 langchain-js 一樣，Python LangChain 庫也可以在 Python Workers 上工作，其他 Python 套件（如 FastAPI）也是如此。

用 Python 編寫的 Workers 與用 JavaScript 編寫的 Workers 一樣簡單：

…並透過簡單地指向 wrangler.toml 中的 .py 檔案進行設定 :

不需要額外的工具鏈或先行編譯步驟。Pyodide Python 執行環境直接由 Workers 執行階段為您提供，其工作方式與用 JavaScript 編寫的 Workers 相同。

from js import Response

async def on_fetch(request, env):
    return Response.new("Hello world!")

還有很多可深入研究的內容，請查看文件，並查看我們的配套部落格文章，瞭解有關 Python Workers 幕後運作情況的詳細資料。

name = "hello-world-python-worker"
main = "src/entry.py"
compatibility_date = "2024-03-18"
compatibility_flags = ["python_workers"]

AI Gateway 現在支援 Anthropic、Azure、AWS Bedrock、Google Vertex 和 Perplexity

我們的 AI Gateway 產品透過分析、快取、限速等功能，幫助開發人員更好地控制和觀察他們的 AI 應用程式。我們一直在為該產品新增更多供應商，包括今天宣佈的 Anthropic、Google Vertex 和 Perplexity。我們在 2023 年 12 月悄悄推出了 Azure 和 Amazon Bedrock 支援，這意味著最受歡迎的提供者現在都可以透過 AI Gateway 獲得支援，包括 Workers AI 本身。

請查看我們的開發人員文件以開始使用 AI Gateway。

即將推出：持久性記錄

在 2024 年第二季，我們將新增持久性記錄，以便您可以將記錄（包括提示和回應）推送到物件儲存體、自訂中繼資料，進而使用使用者 ID 或其他識別碼標記請求；還將新增祕密管理，以便您可以安全地管理應用程式的 API 金鑰。

我們希望 AI Gateway 成為您的 AI 應用程式的控制平面，允許開發人員動態評估請求並將請求路由到不同的模型和提供者。藉助我們的持久性記錄功能，我們希望開發人員能夠使用記錄的資料一鍵微調模型，最終直接在我們的 Workers AI 平台上執行微調作業和微調模型。AI Gateway 只是我們 AI 工具組中的一款產品，但它能夠為在我們平台上構建的開發人員解鎖大量工作流程和使用案例，我們對此感到振奮不已，希望您也一樣。

Vectorize 中繼資料篩選並將在即將推出的 GA 版中支援百萬向量索引

Vectorize 是我們 AI 應用程式工具包組中的另一個元件。自 2023 年 9 月推出公開測試版以來，Vectorize 允許開發人員保留嵌入（向量），例如從 Workers AI 文字嵌入模型產生的向量，並查詢與相似性搜尋或推薦等支援使用案例最接近的匹配。如果沒有向量資料庫，模型輸出就會被遺忘，如要重新呼叫，則必然會產生重新執行模型的額外成本。

自 Vectorize 公開測試以來，我們新增了中繼資料篩選。中繼資料篩選讓開發人員可以將向量搜尋與任意中繼資料篩選結合起來，支援 AI 應用程式中的查詢複雜性。我們正在努力工作，以推進 Vectorize 正式上市，目標發布日期為 2024 年 6 月，屆時將包含對數百萬個向量索引的支援。

最全面的 AI 應用程式開發人員平台

在 Cloudflare 的開發人員平台上，我們堅信所有開發人員都應該能夠快速建立和發布完整堆疊應用程式——這也包括 AI 體驗。隨著我們的 Workers AI 正式上市、Workers 中推出 Python 支援、AI Gateway 和 Vectorize 推出新功能，以及我們與 Hugging Face 的合作，我們擴大了您在我們的平台上使用 AI 進行構建的可能性。我們希望您和我們一樣興奮。查看我們所有的開發人員文件以開始使用，並讓我們知道您構建的內容。

// Insert vectors with metadata
const vectors: Array<VectorizeVector> = [
  {
    id: "1",
    values: [32.4, 74.1, 3.2],
    metadata: { url: "/products/sku/13913913", streaming_platform: "netflix" }
  },
  {
    id: "2",
    values: [15.1, 19.2, 15.8],
    metadata: { url: "/products/sku/10148191", streaming_platform: "hbo" }
  },
...
];
let upserted = await env.YOUR_INDEX.upsert(vectors);

// Query with metadata filtering
let metadataMatches = await env.YOUR_INDEX.query(<queryVector>, { filter: { streaming_platform: "netflix" }} )

Cloudflare 部落格

升級 Workers AI：正式上市以及更多新功能

Workers AI 正式上市

在全球 150 多個城市的 GPU 上執行推理

Huggingface 合作關係

支援微調推理——BYO LoRA

用 Python 編寫 Workers

AI Gateway 現在支援 Anthropic、Azure、AWS Bedrock、Google Vertex 和 Perplexity

Vectorize 中繼資料篩選並將在即將推出的 GA 版中支援百萬向量索引

最全面的 AI 應用程式開發人員平台

Your Worker can now have its own cache in front of it

我們如何為 Cloudflare Workflows 打造 Saga 復原功能

全面開放 OAuth，解鎖 Cloudflare 應用程式生態系統

How we found a bug in the hyper HTTP library