Lesezeit: 5 Min.
Wir haben heute eine wichtige Neuigkeit: Replicate, die führende Plattform für die Ausführung von KI-Modellen, wird Teil von Cloudflare.
Wir begannen das Gespräch mit Replicate, weil wir viele Gemeinsamkeiten hatten – weit mehr als nur eine Affinität zu leuchtenden Farbpaletten. Unsere Mission für die Cloudflare Workers-Entwicklungsplattform besteht darin, die Entwicklung und Bereitstellung von Full-Stack-Anwendungen so einfach wie möglich zu machen. Replicate verfolgt ein ähnliches Ziel: Ein KI-Modell bereitzustellen, soll so einfach sein wie eine Zeile Code zu schreiben. Uns wurde klar, dass wir gemeinsam etwas noch Besseres aufbauen können, indem wir die Replicate-Plattform direkt in Cloudflare integrieren.
Wir freuen uns, diese Neuigkeit mit Ihnen zu teilen, und sind gespannt darauf, was unsere Kunden daraus machen werden. Durch die Integration der Tools von Replicate in Cloudflare bleibt unsere Entwicklerplattform weiterhin der beste Ort im Internet, um KI- oder agentenbasierte Workflows zu entwickeln und bereitzustellen.
Was bedeutet das für Sie?
Bevor wir mehr über die Zukunft der KI sprechen, möchten wir die Fragen beantworten, die Replicate- und Cloudflare-Nutzer am meisten beschäftigen. Kurz:
Für bestehende Replicate-Nutzer: Ihre APIs und Workflows funktionieren ohne Unterbrechung weiter. Sie profitieren in Kürze von der gesteigerten Performance und Zuverlässigkeit des globalen Netzwerks von Cloudflare.
Für bestehende Workers AI-Nutzer: Erwarten Sie eine massive Erweiterung des Modellkatalogs und neue Möglichkeiten, Fine-Tunes und benutzerdefinierte Modelle direkt auf Workers AI auszuführen.
Kommen wir nun darauf zurück, was uns so optimistisch in unsere gemeinsame Zukunft blicken lässt.
Die KI-Revolution begann ohne großes Aufsehen und ging aus Open Source hervor
Lange bevor KI zum Thema jeder Unterhaltung wurde, war sie jahrzehntelang einfach als „maschinelles Lernen“ bekannt. Es war ein spezialisiertes, fast schon akademisches Feld. Der Fortschritt verlief stetig, aber abgeschottet: Die entscheidenden Durchbrüche fanden in nur wenigen großen, gut finanzierten Forschungslaboren statt. Die Modelle waren monolithisch, die Daten proprietär und die Werkzeuge für die meisten Entwickler unzugänglich. Alles änderte sich, als die Kultur der Open-Source-Zusammenarbeit – die gleiche Kraft, die das moderne Internet aufgebaut hat – auf maschinelles Lernen traf und Forschende und Unternehmen begannen, nicht nur ihre wissenschaftlichen Arbeiten, sondern auch ihre Modellgewichtungen und ihren Code zu veröffentlichen.
Das setzte eine beispiellose Innovationswelle frei. Allein in den vergangenen Jahren war das Tempo atemberaubend. Was vor 18 Monaten noch der neuste Stand der Technik war (manchmal fühlt es sich sogar an wie vor wenigen Tagen), gilt heute als Basisniveau. Am sichtbarsten wird dieses Tempo in der generativen KI.
Der Übergang von leicht verstörend wirkenden, verschwommenen Experimenten zu fotorealistischer Bilderzeugung fühlte sich an wie ein Wimpernschlag. Open-Source-Modelle wie Stable Diffusion haben Entwicklern sofort ungeahnte kreative Möglichkeiten eröffnet, und das war erst der Anfang. Wenn man sich heute den Modellkatalog von Replicate ansieht, findet man dort Tausende von Bildmodellen aller Art – jedes baut auf dem vorherigen auf.
Diese Entwicklung fand nicht nur bei Bildmodellen statt, sondern auch bei Video-, Audio-, Sprachmodellen und vielen weiteren.
Doch dieser beeindruckende, von der Community vorangetriebene Fortschritt stellt uns vor eine massive praktische Herausforderung: Wie kann man diese Modelle eigentlich ausführen? Jedes neue Modell hat unterschiedliche Abhängigkeiten, benötigt spezifische GPU-Hardware (und zwar in ausreichender Menge) und erfordert eine komplexe Serving-Infrastruktur, um zu skalieren. Entwickler merkten, dass sie mehr Zeit mit CUDA-Treibern und requirements.txt-Dateien verbrachten als mit der eigentlichen Entwicklung ihrer Anwendungen.
Genau dieses Problem hat Replicate gelöst. Das Team hat eine Plattform geschaffen, die all diese Komplexität abstrahiert (indem ihr Open-Source-Tool Cog Modelle in standardisierte, reproduzierbare Container verpackt). Dadurch kann jeder Entwickler oder Data Scientist selbst die komplexesten Open-Source-Modelle mit einem einfachen API-Aufruf ausführen.
Heute umfasst der Katalog von Replicate mehr als 50.000 Open-Source- und Fine-Tuning-Modelle. Open Source hat zwar viele Möglichkeiten erschlossen, aber Replicates Toolset geht noch weiter und erlaubt Entwicklern, alle benötigten Modelle zentral an einem Ort zu nutzen. Ganz einfach. Mit seinem Marktplatz bietet es auch nahtlosen Zugang zu führenden proprietären Modellen wie GPT-5 und Claude Sonnet – alles über eine einzige, einheitliche API.
Bemerkenswert ist, dass Replicate nicht nur einen Inferenzdienst entwickelt, sondern eine Community aufgebaut hat. So viel Innovation entsteht dadurch, dass man sich von der Arbeit anderer inspirieren lässt, darauf aufbaut und sie verbessert. Replicate ist die zentrale Plattform für Entwickler geworden, um die neuesten Modelle in einer öffentlichen Umgebung zu entdecken, zu teilen, zu optimieren und mit ihnen zu experimentieren.
Gemeinsam mehr erreichen: Der KI-Katalog trifft auf die KI-Cloud
Zurück zur Mission der Workers Platform: Unser Ziel war es von Anfang an, Entwicklern die Erstellung von Full-Stack-Anwendungen ohne Infrastrukturaufwand zu ermöglichen. Und obwohl sich daran nichts geändert hat, hat KI die Anforderungen an moderne Anwendungen grundlegend verändert.
Die Anwendungen, die Entwickler heute bauen, sind ganz andere als noch vor drei Jahren. Damals entwickelte niemand Agents oder produzierte KI-generierte Launch-Videos. Heute gehört das dazu. Infolgedessen haben sich auch ihre Bedürfnisse und Erwartungen an die Cloud bzw. die KI-Cloud geändert.
Um die Anforderungen der Entwickler zu erfüllen, hat Cloudflare damit begonnen, die tragenden Elemente der KI-Cloud zu entwickeln – mit dem Ziel, Inferenz an der Edge und damit in Nutzernähe auszuführen. Dies ist nicht nur ein Produkt, sondern ein ganzer Stack:
Workers AI: Serverlose GPU-Inferenz in unserem globalen Netzwerk.
AI Gateway: Eine Steuerungsebene für Zwischenspeicherung, Rate Limiting und Beobachtung jeder KI-API.
Data Stack: Einschließlich Vectorize (unsere Vektordatenbank) und R2 (für Modell- und Datenspeicherung).
Abstimmung: Tools wie AI Search (früher Autorag), Agents und Workflows zur Erstellung komplexer, mehrstufiger Anwendungen.
Grundlage: Alles basiert auf unserer zentralen Entwicklerplattform aus Workers, Durable Objects und dem Rest unseres Stacks.
Während wir Entwicklern dabei helfen, ihre Anwendungen zu skalieren, verfolgt Replicate eine ganz ähnliche Mission – nämlich das Bereitstellen von KI-Modellen so einfach zu machen wie das Bereitstellen von Code. Hier kommt alles zusammen. Replicate verfügt über einen der branchenweit größten und aktivsten Modellkataloge und Entwickler-Communitys. Cloudflare betreibt ein unglaublich leistungsstarkes globales Netzwerk und eine serverlose Inferenzplattform. Gemeinsam können wir das Beste aus beiden Welten bieten: Die vollständigste Auswahl an Modellen, die auf einer schnellen, zuverlässigen und kostengünstigen Inferenzplattform ausgeführt werden können.
Die Möglichkeit, Modelle zu teilen, Fine-Tunes zu veröffentlichen, Sterne zu sammeln und im Playground zu experimentieren, ist das Herzstück der Replicate Community. Wir werden weiterhin in diese Plattform investieren und sie ausbauen, um sie als führende Anlaufstelle für KI-Erforschung und -Experimente zu etablieren – jetzt dank Cloudflares globalem Netzwerk noch schneller und reaktionsstärker.
Unsere Vision besteht darin, das Beste aus beiden Plattformen zusammenzuführen. Wir werden den gesamten Replicate-Katalog in Workers AI integrieren – mehr als 50.000 Modelle und Fine-Tunes. Dies bietet Ihnen die ultimative Wahl: Sie können Modelle in der flexiblen Umgebung von Replicate oder auf der Serverless-Plattform von Cloudflare ausführen – alles von einem Ort aus.
Doch wir belassen es nicht bei einer Erweiterung des Katalogs. Wir freuen uns, bekanntzugeben, dass wir Fine-Tuning-Funktionen in Workers AI integrieren werden – unterstützt durch Replicates umfassende Expertise. Wir machen Workers AI außerdem flexibler als je zuvor. Bald können Sie Ihre eigenen benutzerdefinierten Modelle in unser Netzwerk integrieren. Wir nutzen die Expertise von Replicate mit Cog, um diesen Prozess nahtlos, reproduzierbar und einfach zu gestalten.
Die KI-Cloud: Mehr als nur Inferenz
Ein Modell auszuführen ist nur ein Teil des Ganzen. Wirklich spannend wird es, wenn Sie KI mit Ihrer gesamten Anwendung verbinden. Stellen Sie sich vor, was Sie entwickeln können, wenn der umfangreiche Katalog von Replicate tief in die gesamte Cloudflare-Entwicklerplattform integriert ist: Führen Sie ein Modell aus und speichern Sie die Ergebnisse direkt in R2 oder Vectorize. Lösen Sie Inferenz von einem Worker oder einer Queue aus. Verwenden Sie Durable Objects, um den Zustand für einen KI-Agent zu verwalten, oder erstellen Sie eine generative Echtzeit-Benutzeroberfläche mit WebRTC und WebSockets.
Um all dies zu verwalten, werden wir unsere einheitliche Inferenzplattform tief in das AI Gateway integrieren. Dadurch erhalten Sie eine zentrale Steuerungsebene für Beobachtbarkeit, Prompt-Management, A/B-Tests und Kostenanalysen über alle Ihre Modelle hinweg, unabhängig davon, ob diese auf Cloudflare, Replicate oder einem anderen Anbieter ausgeführt werden.
Wir heißen das Replicate-Team bei Cloudflare herzlich willkommen. Sein Engagement für die Entwickler-Community und seine Expertise im KI-Ökosystem sind unübertroffen. Wir können es kaum erwarten, gemeinsam die Zukunft der KI zu gestalten.