당사가 제공하는 플랫폼을 기반으로 직접 구축한 사내 AI 엔지니어링 스택

본 콘텐츠는 사용자의 편의를 고려해 자동 기계 번역 서비스를 사용하였습니다. 영어 원문과 다른 오류, 누락 또는 해석상의 미묘한 차이가 포함될 수 있습니다. 필요하시다면 영어 원문을 참조하시기를 바랍니다.

지난 30일 동안, Cloudflare의 R&D 조직 중 93%가 Cloudflare 자체 플랫폼에서 구축한 인프라로 구동되는 AI 코딩 도구를 사용했습니다.

11개월 전에 저희는 AI를 엔지니어링 스택에 진정으로 통합하는 주요 프로젝트를 시작했습니다. Cloudflare에서 에이전트를 유용하게 만드는 데 필요한 내부 MCP 서버, 액세스 계층, AI 도구를 구축해야 했습니다. 회사 전체의 엔지니어들을 모아 iMARS(내부 MCP 에이전트/서버 롤아웃 분대)라는 팀을 구성했습니다. 개발자 생산성 팀은 CI/CD, 빌드 시스템, 자동화 등 내부 도구의 대부분을 소유하고 있어 지속적인 작업이 가능했습니다.

다음은 지난 30일 동안의 자체 에이전트 기반 AI 사용을 캡처하는 몇 가지 수치입니다.

전체 직원 약 6,100명 중, 3,683명의 내부 사용자가 AI 코딩 도구를 적극적으로 사용하고 있습니다(전사 60%, R&D 93%).
4,795만 건의 AI 요청
295개의 팀 에서 현재 에이전트형 AI 도구와 코딩 어시스턴트를 활용하고 있습니다.
월 2,018만 건의 AI Gateway 요청
2,413억 7천만 개의 토큰이 AI Gateway를 통해 라우팅되었습니다
Workers AI에서 처리된 토큰518억 3천만 개

내부적으로는 개발자 속도에 미치는 영향은 명확합니다. 매 분기마다 이 정도로 병합 요청이 증가한 사례는 본 적이 없습니다.

AI 도구 채택이 증가하면서 4주 이동 평균은 주당 약 5,600건에서 8,700건 이상으로 증가했습니다. 3월 23일 주에는 10,952건을 기록했으며, 이는 4분기 기준선의 거의 두 배에 달합니다.

MCP 서버가 출발점이었지만, 팀에서는 한 걸음 더 나아가야 한다고 빨리 깨달았습니다. 표준을 성문화하는 방법, 코드를 검토하는 방법, 엔지니어가 온보딩하는 방법, 수천 개의 저장소에 변경 사항을 전파하는 방법 등.

이 게시물에서는 이러한 변화가 지난 11개월 동안 어떤 모습이었고, 그 결과에 대해 자세히 살펴봅니다. 내부적으로 구축한 AI 엔지니어링 스택이 이번 주에 출시하고 개선할 동일한 제품에서 실행되기 때문에 Agents Week의 마무리를 위해 지금 게시하고 있습니다.

한눈에 보는 아키텍처

엔지니어 대면 도구 계층(OpenCode, 윈드서핑 및 기타 MCP 호환 클라이언트)에는 오픈 소스 및 타사 코딩 어시스턴트 도구가 모두 포함됩니다.

각 계층은 Cloudflare에서 사용하는 다음과 같은 제품 또는 도구에 매핑됩니다.

Cloudflare가 구축한 것	구축 기능
Zero Trust 인증	Cloudflare Access
중앙 집중식 LLM 라우팅, 비용 추적, BYOK, Zero Data Retention 제어	AI Gateway
개방형 가중치 모델을 사용한 온플랫폼 추론	Workers AI
단일 OAuth를 지원하는 MCP 서버 포털	Workers + Access
AI Code Reviewer CI 통합	Workers + AI Gateway
에이전트 생성 코드에 대한 샌드박스 실행(코드 모드)	Dynamic Workers
상태 저장 장기 실행 에이전트 세션	Agents SDK (McpAgent, Durable Objects)
복제, 구축, 테스트를 위한 격리된 환경	Sandbox SDK — Agents Week부터 정식 출시
지속 가능한 다단계 워크플로우	워크플로우 — Agents Week 기간 동안 10배 확장
16,000여 개의 엔터티 지식 그래프	Back스테이지 (OSS)

이들 중 어느 것도 내부 전용 인프라가 아닙니다. 위에 나열된 BackStage를 제외한 모든 제품은 출시 제품이며, 그 중 상당수가 Agents Week가 진행되는 동안 중요한 업데이트를 받았습니다.

세 가지 막에 걸쳐 살펴보겠습니다.

플랫폼 계층 — 인증, 라우팅, 추론의 작동 방식(AI Gateway, Workers AI, MCP 포털, 코드 모드)
지식 계층 — 상담원이 시스템을 이해하는 방법 (Backstage, AGENTS.md)
시행 계층 — 대규모로 높은 품질을 유지하는 방법 (AI Code Reviewer, Engineering Codex)

1막: 플랫폼 계층

AI Gateway가 보안을 유지하고 개발자 경험을 개선하는 데 도움이 된 방법

매일 AI 코딩 도구를 사용하는 내부 사용자가 3,600명 이상이라면 다양한 클라이언트, 사용 사례, 역할에 걸친 액세스와 가시성을 해결해야 합니다.

모든 것은 모든 인증 및 Zero Trust 정책 시행을 처리하는 Cloudflare Access로 시작됩니다. 인증되면 모든 LLM 요청은 AI Gateway를 통해 라우팅됩니다. 따라서 한 곳에서 공급자 키, 비용 추적, 데이터 보존 정책을 관리할 수 있습니다.

^{OpenCode AI Gateway 개요: 하루 688.46만 건의 요청, 하루 105억 7000만 개의 토큰, 하나의 엔드포인트를 통해 4개의 공급자에게 라우팅.}

AI Gateway 분석은 모델 공급자의 월별 사용량이 어떻게 분포되어 있는지 보여줍니다. 지난 달 내부 요청량은 다음과 같이 분석됩니다.

공급자	요청/월	공유
Frontier Labs (OpenAI, Anthropic, Google)	13.38M	91.16%
Workers AI	130만	8.84%

현재는 프론티어 모델이 복잡한 에이전트 코딩 작업을 대부분 처리하고 있지만, Workers AI가 이미 상당한 부분을 차지하고 있으며, 에이전트 엔지니어링 워크로드의 처리 비중이 점점 더 커지고 있습니다.

Cloudflare에서 Workers AI를 점점 더 많이 활용하는 방법

Workers AI 는 Cloudflare의 서버리스 AI 추론 플랫폼으로, Cloudflare의 전역 네트워크에서 GPU로 구동되는 오픈 소스 모델을 실행합니다. 프런티어 모델에 비해 비용이 크게 개선되었다는 것 외에도, 추론이 Workers, Durable Objects 및 스토리지와 동일한 네트워크에서 유지된다는 점이 핵심 장점입니다. 처리해야 할 클라우드 간 홉이 없습니다. 이 과정에서 관리해야 할 대기 시간 증가, 네트워크 취약성, 추가 네트워킹 구성이 발생합니다.

^{지난 달 Workers AI 사용량: 입력 토큰 514억 7000만 개, 출력 토큰 3억 6112만 개.}

Kimi K2.5는 2026년 3월 Workers AI에서 출시된 256k 컨텍스트 윈도우, 도구 호출 및 구조화된 출력을 갖춘 프런티어 규모의 오픈 소스 모델입니다. Kimi K2.5 출시 게시물에서 설명한 것처럼, Kimi에서 하루에 70억 개 이상의 토큰을 처리하는 보안 에이전트가 있습니다. 이를 위해서는 중간 등급 독점 모델의 경우 연간 약 240만 달러의 비용이 소요됩니다. 하지만 Workers AI에서는 77% 더 저렴합니다.

보안 외에도, 저희는 CI 파이프라인에서의 문서 검토, 수천 개의 리포지터리에서 AGENTS.md 컨텍스트 파일 생성, 동일 네트워크 대기 시간이 피크 모델 성능보다 더 중요한 간단한 추론 작업에도 Workers AI를 사용합니다.

오픈 소스 모델이 계속 개선됨에 따라 Workers AI가 내부 워크로드 중 점점 더 많은 부분을 처리할 것으로 예상됩니다.

초기부터 우리가 얻은 한 가지는 첫날부터 단일 프록시 Worker를 통해 라우팅한 것입니다. 클라이언트를 AI Gateway에 직접 연결하도록 할 수도 있었는데, 처음에 설정하면 더 간단했을 것입니다. 하지만 Worker를 통한 중앙 집중화는 나중에 클라이언트 구성을 건드리지 않고도 사용자별 속성, 모델 카탈로그 관리, 권한 시행을 추가할 수 있다는 것을 의미했습니다. 아래 부트스트랩 섹션에서 설명하는 모든 기능은 하나의 병목 지점이 있기 때문에 존재하는 것입니다. 프록시 패턴은 직접 연결에서 제공하지 않는 제어 영역을 제공하며, 나중에 추가적인 코딩 어시스턴트 도구를 연결하면 동일한 Worker 및 검색 엔드포인트가 이를 처리합니다.

작동 방식: 하나의 URL로 모든 것이 구성됨

전체 설정은 하나의 명령으로 시작됩니다.

opencode auth login https://opencode.internal.domain

이 명령은 사용자가 구성 파일을 건드리지 않고도 공급자, 모델, MCP 서버, 에이전트, 명령, 권한을 구성하는 체인을 트리거합니다.

1단계: 인증 요건 살펴보기. OpenCode는 구성 을 https://opencode.internal.domain/.well-known/opencode와 같은 URL에서 가져옵니다.

이 검색 엔드포인트는 Worker에서 제공하며 응답에는 공급자, MCP 서버, 에이전트, 명령,기본 권한이 포함된 구성 블록과 함께 OpenCode에 인증 방법을 알려주는 인증 블록이 있습니다.

{
  "auth": {
    "command": ["cloudflared", "access", "login", "..."],
    "env": "TOKEN"
  },
  "config": {
    "provider": { "..." },
    "mcp": { "..." },
    "agent": { "..." },
    "command": { "..." },
    "permission": { "..." }
  }
}

2단계: Cloudflare Access로 인증합니다. OpenCode가 auth 명령을 실행하고 사용자는 Cloudflare의 다른 모든 것에 사용하는 것과 동일한 SSO를 통해 인증합니다. cloudflared는 서명된 JWT를 반환합니다. OpenCode는 정보를 로컬에 저장하고 이후 모든 공급자 요청에 자동으로 첨부합니다.

3단계: 구성을 OpenCode에 병합합니다. 제공된 구성은 전체 조직의 공유 기본값이지만, 항상 로컬 구성이 우선합니다. 사용자는 다른 누구에게도 영향을 주지 않으면서 기본 모델을 재정의하거나 자체 에이전트를 추가하거나 프로젝트 및 사용자 범위 권한을 조정할 수 있습니다.

프록시 Worker 내부. Worker는 세 가지 작업을 수행하는 간단한 Hono 앱입니다.

공유 구성을 제공합니다. 구성은 배포 시 구조화된 소스 파일에서 컴파일되며 Worker의 원본에 대한 {baseURL} 와 같은 자리 표시자 값이 포함되어 있습니다. 요청 시 Worker는 이를 대체하므로 모든 공급자 요청은 모델 공급자가 아닌 Worker를 통해 라우팅됩니다. 각 공급자는 Worker가 해당 AI Gateway 경로로 전달하는 경로 프리픽스(/anthropic, /openai, /google-ai-studio/v1beta, /compat for Workers AI)를 가져옵니다.
AI Gateway에 대한 요청을 프록시 설정합니다. OpenCode가 POST /anthropic/v1/messages와 같은 요청을 보내면, Worker는 Cloudflare Access JWT의 유효성을 검사한 다음 전달하기 전에 헤더를 재작성합니다.
```
Stripped:   authorization, cf-access-token, host
Added:      cf-aig-authorization: Bearer <API_KEY>
            cf-aig-metadata: {"userId": "<anonymous-uuid>"}
```
요청은 AI Gateway로 전달되고, AI Gateway는 이를 적절한 공급자에게 라우팅합니다. 응답은 버퍼링 없이 바로 전달됩니다. 클라이언트 구성의 apiKey 필드는 비어 있습니다. Worker가 서버 측에서 실제 키를 삽입하기 때문입니다. API 키는 사용자 컴퓨터에 존재하지 않습니다.
모델 카탈로그를 최신 상태로 유지합니다. 매시간 cron 트리거는 models.dev에서 현재 OpenAI 모델 목록을 가져옵니다. 이를 Workers KV에 캐시하고 모든 모델에 store: false 를 삽입하여 제로 데이터 보존을 보장합니다. 신모델에는 구성을 다시 배포하지 않고도 자동으로 ZDR이 적용됩니다.

익명 사용자 추적. JWT 유효성 검사 후 Worker는 영구 스토리지의 경우 D1, 읽기 캐시로 KV를 사용하여 사용자의 이메일을 UUID에 매핑합니다. AI Gateway는 cf-aig-metadata에서 익명 UUID만 확인하며, 이메일은 확인하지 않습니다. 따라서 ID를 모델 공급자 또는 Gateway 로그에 노출하지 않고도 사용자당 비용을 추적하고 사용량을 분석할 수 있습니다.

코드로 구성. 에이전트와 명령은 YAML 전면재를 통해 마크다운 파일로 작성됩니다. 빌드 스크립트가 이를 OpenCode JSON 스키마에 대해 검증된 단일 JSON 구성으로 컴파일합니다. 새 세션마다 자동으로 최신 버전이 적용됩니다.

전반적인 아키텍처는 Worker, Cloudflare Access, AI Gateway 프록시, 모든 것을 자동으로 구성하는 클라이언트가 액세스할 수 있는 검색 엔드포인트 등의 개발자 플랫폼을 통해 단순하고 누구나 배포할 수 있습니다. 사용자는 하나의 명령만 실행하면 됩니다. 수동으로 구성할 필요도 없고, 노트북의 API 키나 MCP 서버 연결을 수동으로 설정할 필요도 없습니다. Wrangler 배포하면, Cloudflare의 에이전트 도구를 변경하고 3,000명 이상의 사용자가 코딩 환경에서 사용할 수 있는 내용을 업데이트할 수 있습니다.

MCP 서버 포털: 하나의 OAuth, 여러 MCP 도구

저희는 엔터프라이즈 규모의 MCP를 관리하는 전체 접근 방식을 별도의 게시물에서 설명했으며, MCP 서버 포털, Cloudflare Access, 코드 모드를 함께 사용하는 방법도 포함됩니다. 다음은 내부적으로 구축한 내용의 간략한 버전입니다.

Cloudflare의 내부 포털은 13개의 프로덕션 MCP 서버를 집계하여 Back스테이지, GitLab, Jira, Sentry, Elasticsearch, Prometheus, Google Workspace, 내부 릴리스 관리자 등에서 182개 이상의 도구를 노출합니다. 따라서 액세스를 통합하고 모든 것이 간소화되므로, 하나의 엔드포인트와 모든 도구에 대한 액세스를 관리하는 하나의 Cloudflare Access 흐름이 제공됩니다.

각 MCP 서버는 동일한 기반 위에 구축됩니다. Agents SDK의 McpAgent, OAuth를 위한 workers-oauth-provider, 그리고 ID를 위한 Cloudflare Access입니다. 인증 인프라 공유, Bazel 빌드, CI/CD 파이프라인 및 백스테이지 등록을 위한 catalog-info.yaml 을 갖춘 단일 모노레포에 모든 것이 존재합니다. 새 서버를 추가하는 것은 대부분 기존 서버를 복사하고 서버에서 래핑하는 API를 변경하는 것입니다. 이 작동 방식과 이면의 보안 아키텍처에 대해 자세히 알아보려면 Cloudflare의 엔터프라이즈 MCP 참조 아키텍처를 확인하세요.

포털 계층에서의 코드 모드

MCP는 AI 에이전트를 도구에 연결하는 데 적합한 프로토콜이지만, 모든 도구 정의가 모델이 작동하기 시작하기도 전에 컨텍스트 윈도우 토큰을 소비한다는 현실적인 문제가 있습니다. MCP 서버와 도구의 수가 증가함에 따라 토큰 오버헤드가 증가하며, 이는 대규모로 실제 비용이 됩니다. 코드 모드 는 새롭게 떠오르는 해결책입니다. 모든 도구 스키마를 미리 로드하는 대신 모델이 코드를 통해 도구를 검색하고 호출합니다.

저희 GitLab MCP 서버는 원래 34개의 개별 도구(get_merge_request, list_pipelines, get_file_content등)를 노출했습니다. 이 34개의 도구 스키마는 요청당 약 15,000개의 컨텍스트 윈도우 토큰을 소비했습니다. 200K 컨텍스트 윈도우에서 이는 예산의 7.5%가 질문을 하기 전에 지출된 것입니다. 이는 모든 요청과 모든 엔지니어를 날마다 더해서 더해집니다.

이제 MCP 서버 포털은 코드 모드 프록시를 지원하므로, 한 번에 하나의 서버가 아니라 중앙에서 문제를 해결할 수 있습니다. 이 경우 포털은 모든 업스트림 도구 정의를 클라이언트에 노출하는 대신 이를 포털 수준의 두 가지 도구인 portal_codemode_search 및 portal_codemode_execute로 축소합니다.

포털 계층에서 이 작업을 수행할 때 좋은 점은 규모가 명확하게 된다는 것입니다. 코드 모드가 없으면 새로운 MCP 서버마다 모든 요청에 더 많은 스키마 오버헤드가 추가됩니다. 포털 수준 코드 모드를 사용하면 Cloudflare가 포털 뒤에서 더 많은 서버를 연결하더라도 클라이언트에는 여전히 두 개의 도구만 표시됩니다. 즉, 컨텍스트가 더 커지고 토큰 비용이 낮아지며 아키텍처가 전반적으로 깨끗해집니다.

2막: 지식 계층

백스테이지: 모든 이면의 지식 그래프

iMARS 팀이 실제로 유용한 MCP 서버를 구축하려면 먼저 서비스 및 인프라에 대한 구조화된 데이터라는 보다 근본적인 문제를 해결해야 했습니다. 우리는 에이전트가 누가 무엇을 소유하는지, 서비스가 어떻게 의존하는지, 문서가 어디에 있는지, 서비스와 어떤 데이터베이스와 통신하는지 등 코드 기반 외부의 컨텍스트를 이해할 수 있어야 합니다.

저희는 Spotify에서 구축한 오픈 소스 내부 개발자 포털인 Backstage를 서비스 카탈로그로 운영합니다. 자체 호스팅되며(기록상 Cloudflare 제품이 아님) 다음과 같은 기능을 추적합니다.

2,055개의 서비스, 167개의 라이브러리, 122개의 패키지
스키마 정의가 있는 228개의 API
45개 도메인에 걸친 544개 시스템(제품)
1,302개 데이터베이스, 277개 ClickHouse 테이블, 173개 클러스터
소유권 매핑이 있는 375개의 팀과 6,389명의 사용자
서비스를 데이터베이스, Kafka 토픽, 의존하는 클라우드 리소스에 연결하는 종속성 그래프

백스테이지 MCP 서버(13개 도구)는 MCP 포털을 통해 제공되며, 에이전트는 코딩 세션에서 나가지 않고도 서비스 소유자를 조회하고, 서비스가 종속된 것을 확인하며, 관련 API 사양을 찾고, Tech Insights 점수를 가져올 수 있습니다.

이 구조화된 데이터가 없으면 에이전트는 맹목적으로 작업하게 됩니다. 눈앞에 있는 코드를 읽을 수는 있지만, 주변 시스템을 볼 수는 없습니다. 카탈로그는 개별 저장소를 엔지니어링 조직의 연결된 지도로 바꿉니다.

AGENTS.md: AI를 위해 수천 개의 저장소 준비하기

롤아웃 초기에는 코딩 에이전트가 그럴듯해 보이면서도 여전히 리포지토리에 적합하지 않은 변경 사항을 생성하는 동일한 실패 모드가 계속 발생했습니다. 일반적으로 모델이 올바른 테스트 명령, 팀의 현재 규칙, 금지된 코드 부분 등을 알지 못하는 로컬 컨텍스트에 있는 문제가 있었습니다. 그래서 우리는 AGENTS.md를 개발하게 되었습니다. AGENTS.md는 코드베이스가 실제로 어떻게 작동하는지 코딩 에이전트에 알려주고 팀이 해당 컨텍스트를 명시하도록 강제하는 각 저장소의 짧은 구조화된 파일입니다.

AGENTS.md의 모습

저희는 GitLab 인스턴스 전체에서 AGENTS.md 파일을 생성하는 시스템을 구축했습니다. 이러한 파일은 모델의 컨텍스트 창에 직접 위치하므로, 저희는 짧고 하이 시그널을 유지하기를 원했습니다. 일반적인 파일은 다음과 같은 모습입니다.

# AGENTS.md

## Repository
- Runtime: cloudflare workers
- Test command: `pnpm test`
- Lint command: `pnpm lint`

## How to navigate this codebase
- All cloudflare workers  are in src/workers/, one file per worker
- MCP server definitions are in src/mcp/, each tool in a separate file
- Tests mirror source: src/foo.ts -> tests/foo.test.ts

## Conventions
- Testing: use Vitest with `@cloudflare/vitest-pool-workers` (Codex: RFC 021, RFC 042)
- API patterns: Follow internal REST conventions (Codex: API-REST-01)

## Boundaries
- Do not edit generated files in `gen/`
- Do not introduce new background jobs without updating `config/`

## Dependencies
- Depends on: auth-service, config-service
- Depended on by: api-gateway, dashboard

에이전트는 이 파일을 읽을 때 리포지토리를 처음부터 추론할 필요가 없습니다. 코드베이스가 구성되는 방식, 어떤 규칙을 따라야 하는지, 어떤 엔지니어링 Codex 규칙을 적용하는지 알고 있습니다.

Cloudflare에서 대규모로 리소스를 생성하는 방법

생성기 파이프라인은 Back스테이지 서비스 카탈로그에서 엔터티 메타데이터(소유, 종속성, 시스템 관계)를 가져오고, 리포지토리 구조를 분석하여 언어, 빌드 시스템, 테스트 프레임워크, 디렉터리 레이아웃을 감지한 다음, 감지된 스택을 관련 Engineering Codex 표준에 매핑합니다. 그러면 역량을 갖춘 모델이 구조화된 문서를 생성하고, 담당 팀이 이를 검토하고 수정할 수 있도록 시스템에서 병합 요청이 시작됩니다.

대략 3,900개의 리포지터리를 처리했습니다. 특히 다중 언어 저장소나 비정상적인 빌드 설정의 경우 첫 번째 단계가 항상 완벽하지는 않았지만, 그 기준선조차도 에이전트에게 처음부터 모든 것을 추론하도록 요청하는 것보다 훨씬 낫습니다.

초기 병합 요청으로는 부트스트랩 문제가 해결되었지만, 이 파일을 최신 상태로 유지하는 것도 그에 못지않게 중요했습니다. 오래된 AGENTS.md는 파일이 없는 것보다 더 나쁠 수 있습니다. 우리는 리포지토리 변경으로 AGENTS.md를 업데이트해야 한다고 제안할 때 플래그를 지정할 수 있는 AI 코드 리뷰어로 이 루프를 마무리했습니다.

액트 3: 시행 계층

AI Code Reviewer

Cloudflare에서의 모든 병합 요청은 AI 코드 검토를 받습니다. 통합은 간단합니다. 팀에서 단일 CI 구성 요소를 파이프라인에 추가하면 그 시점부터 모든 MR이 자동으로 검토됩니다.

저희는 GitLab의 자체 호스팅 솔루션을 CI/CD 플랫폼으로 사용합니다. 검토자는 팀이 파이프라인에 포함하는 GitLab CI 구성 요소로 구현됩니다. MR을 열거나 업데이트하면 CI 작업이 멀티 에이전트 검토 코디네이터와 함께 OpenCode 를 실행합니다. 코디네이터는 위험 등급(트리블리, 라이트, 전체)에 따라 MR을 분류하고 코드 품질, 보안, 코덱스 규정 준수, 문서화, 성능, 릴리스 영향 등 전문 검토 에이전트에게 위임합니다. 각 에이전트는 모델 액세스를 위해 AI Gateway에 연결하고, 중앙 저장소에서 엔지니어링 Codex 규칙을 가져오며, 리포지터리의 AGENTS.md를 읽어 코드베이스 컨텍스트를 확인합니다. 결과는 구조화된 MR 주석으로 다시 게시됩니다.

Workers 기반 별도의 구성 서비스에서 검토자 에이전트별로 중앙 집중식 모델 선택을 처리하므로 CI 템플릿을 변경하지 않고도 모델을 이동할 수 있습니다. 검토 프로세스 자체는 CI 실행기에서 실행되며 실행할 때마다 상태 비저장 방식입니다.

출력 형식

우리는 출력 형식을 올바르게 만드는 데 시간을 투자했습니다. 리뷰는 보안, 코드 품질, 성능 등의 카테고리로 분류되므로 엔지니어가 가득 찬 텍스트를 읽는 대신 헤더를 스캔할 수 있습니다. 각 결과에는 심각도 수준(긴급, 중요, 제안 또는 선택적 Nit)이 있어 주의가 필요한 것과 정보용을 즉시 명확하게 구분할 수 있습니다.

검토자는 여러 번 반복하여 컨텍스트를 유지합니다. 이전 검토 라운드에서 수정된 항목을 표시한 경우, 동일한 문제를 다시 발생시키지 않고 인정합니다. 그리고 결과물이 엔지니어링 Codex 규칙에 매핑되면 특정 규칙 ID를 인용하여 제안된 AI 제안을 조직의 표준에 대한 참조로 바꿉니다.

Workers AI는 주로 Kimi K2.5가 프런티어 모델에 비해 적은 비용으로 우수한 성능을 발휘하는 문서 검토 작업의 경우 검토자의 트래픽 중 약 15%를 처리합니다. Opus 4.6 및 GPT 5.4와 같은 모델은 추론 역량이 가장 중요한 보안에 민감하고 아키텍처 측면에서 복잡한 검토를 처리합니다.

지난 30일 동안:

표준 CI 파이프라인 상의 모든 저장소에 대한100% AI 코드 리뷰어를 대상으로 합니다.
547만 건의 AI Gateway 요청
2,477억 개의 토큰 처리

이번 게시물과 함께 모델 간 라우팅 방법, 멀티 에이전트 오케스트레이션, 당사에서 개발한 비용 최적화 전략 등 검토자의 내부 아키텍처를 다루는 상세한 기술 블로그 게시물 을 발표합니다.

엔지니어링 Codex: 에이전트 기술로서의 엔지니어링 표준

Engineering Codex는 Cloudflare의 새로운 내부 표준 시스템으로, 핵심 엔지니어링 표준이 여기에 있습니다. Cloudflare에는 다단계 AI 추출 프로세스가 있는데, 이 프로세스에서는 코덱스 규칙 집합("X가 필요하면 Y를 사용하세요. Y 또는 Z를 수행하려면 X해야 합니다").

이 기술은 "Rust 서비스에서 오류를 어떻게 처리해야 하나요?"라는 질문을 받고 빌드를 진행하는 엔지니어가 현지에서 사용할 수 있습니다. "이 TypeScript 코드에서 규정 준수를 검토하는지 확인하세요." Cloudflare Network Firewall 팀은 멀티 에이전트 합의 프로세스를 사용하여 rampartd 를 감사했으며, 모든 요구 사항에 대해 준수, 부분 준수 또는 비준수 점수를 매기고, 구체적인 위반 세부 정보와 시정 조치를 제공하여 이전에는 몇 주가 걸리던 수작업을 구조화되고 반복 가능한 프로세스로 단축시켰습니다.

검토 시, AI 코드 리뷰어는 피드백을 통해 특정 Codex 규칙을 인용합니다.

^{AI 코드 검토: 코덱스 RFC 위반을 지적하는 범주화된 결과(이 경우 Codex 규제 준수)를 표시합니다.}

이 중 어떤 것도 그 자체로 참신하지 않습니다. 많은 회사에서 서비스 카탈로그를 운영하거나, 검토 봇을 배포하거나, 엔지니어링 표준을 게시합니다. 차이점은 배선입니다. 에이전트가 Back스테이지에서 컨텍스트를 가져오고, 편집 중인 리포지토리의 AGENTS.md를 읽고, 동일한 툴체인으로부터 Codex 규칙에 따라 검토를 거치는 경우, 일반적으로 첫 번째 드래프트가 배포에 충분히 가까워집니다. 6개월 전에는 그렇지 않았습니다.

점수 판

이러한 노력을 시작하고 93%의 R&D 채택까지 1년이 채 걸리지 않았습니다.

전사적 채택(2026년 2월 5일~4월 15일):

메트릭	값
활성 사용자	3,683명(회사의 60%)
R&D 팀 채택	93%
AI 메시지	4,795만 건
AI 활동이 있는 팀	295
OpenCode 메시지	2,708만
윈드서핑 메시지	434.9K

AI Gateway(지난 30일 합산):

메트릭	값
요청	20.18M
토큰	2,413억 7,000만

Workers AI(지난 30일):

메트릭	값
입력 토큰	51.47B
출력 토큰	3억 6112만

다음 단계: 백그라운드 에이전트

당사 내부 엔지니어링 스택의 다음 단계는 백그라운드 에이전트를 포함하는 것입니다. 백그라운드 에이전트는 로컬에서 사용 가능한 동일한 도구(MCP 포털, Git, 테스트 실행기)를 사용하여 필요에 따라 실행할 수 있지만, 모든 기능은 클라우드에서 완전히 실행됩니다. 이 아키텍처는 오케스트레이션을 위해 Durable Objects와 Agents SDK를 사용하며, 리포지토리 복제, 종속성 설치, 테스트 실행 등 전체 개발 환경이 필요할 때 샌드박스 컨테이너를 위임합니다. Sandbox SDK가 Agents Week 기간에 GA로 전환되었습니다.

Agents Week 기간 동안 Agents SDK에 기본 제공되는 장기 실행 에이전트는 이전에 해결 방법이 필요했던 지속형 세션 문제를 해결합니다. 이제 SDK는 만료 없이 장기간 실행되는 세션을 지원합니다. 이는 단일 세션에서 에이전트가 대규모 저장소를 복제하고, 전체 테스트 제품군을 실행하고, 장애를 반복하고, MR을 여는 데 충분합니다.

이는 코드를 작성하는 방법뿐만 아니라 코드를 검토하는 방법, 표준을 적용하는 방법, 수천 개의 저장소에 변경 사항을 안전하게 전달하는 방법 등을 재고하기 위한 11개월의 노력을 의미합니다. 모든 계층은 고객이 사용하는 제품과 동일한 제품에서 실행됩니다.

구축 시작

Agents Week에서 필요한 모든 것을 제공했습니다. 플랫폼이 바로 여기에 있습니다.

npx create-cloudflare@latest --template cloudflare/agents-starter

Agents Starter가 귀사의 가동을 보장합니다. 아래 다이어그램은 확장할 준비가 되었으며 최상위에 도구(챗봇, 웹 UI, CLI, 브라우저 익스텐션)가, 중간에서 세션 상태 및 오케스트레이션을 처리하는 에이전트 SDK, 그리고 Cloudflare 서비스가 계층화되어 있는 전체 아키텍처입니다. 호출할 수 있습니다.

문서: 에이전트 SDK · 샌드박스 SDK · AI Gateway · Workers AI · 워크플로우 · 코드 모드 · Cloudflare의 MCP

저장소: cloudflare/agents · cloudflare/sandbox-sdk · cloudflare/mcp-server-cloudflare · cloudflare/기술

Cloudflare에서 AI를 어떻게 사용하는지에 대한 자세한 내용은 AI 코드 검토 프로세스에 대한 게시물을 참조하십시오. Agents Week 기간 동안 Cloudflare가 출시한 모든 제품을 확인해 보세요.

Cloudflare는 여러분이 무엇을 구축하고 있는지 듣고 싶습니다. Discord, X, Bluesky에서 저희를 찾으세요.

^{Ayush Khakur가 AGENTS.md 시스템을 구축하고 OpenCode 인프라를 위한 AI Gateway 통합을 구축했습니다. Scott Roemeschke는 Cloudflare 개발자 생산성팀의 엔지니어링 관리자입니다. Rajesh Bhatia는 Cloudflare 생산성 플랫폼 부서를 이끌고 있습니다. 이 게시물은 iMARS(내부 MCP 에이전트/서버 롤아웃 분대) 타이거 팀 및 전사적 봉사자의 도움으로 Devtools 팀의 공동 작업으로 작성되었습니다.}

Cloudflare 블로그