본 콘텐츠는 사용자의 편의를 고려해 자동 기계 번역 서비스를 사용하였습니다. 영어 원문과 다른 오류, 누락 또는 해석상의 미묘한 차이가 포함될 수 있습니다. 필요하시다면 영어 원문을 참조하시기를 바랍니다.
Cloudflare의 Wrangler CLI는 지난 6년 동안 여러 주요 버전을 게시했으며, 각 버전에는 명령, 구성, 개발자가 플랫폼과 상호 작용하는 방식에 대한 중요한 변경 사항이 최소한 몇 가지 포함되어 있습니다. 활발하게 유지 관리되는 다른 오픈 소스 프로젝트와 마찬가지로, Cloudflare는 이전 버전에 대한 문서를 이용할 수 있습니다. v1 문서 에는 사용 중단 배너, noindex 메타 태그, 현재 문서를 가리키는 표준 태그가 있습니다. 모든 권고 신호는 동일한 콘텐츠를 말합니다. 이 콘텐츠는 구식입니다. 다른 콘텐츠를 찾아보세요. AI 학습 크롤러는 이러한 신호를 안정적으로 준수하지 않습니다.
developers.cloudflare.com에서 AI Crawl Control 을 사용하고 있습니다. 따라서 AI 크롤러 카테고리 의 봇은 지난 30일 동안 480만 회 방문했고, 사용이 중단된 콘텐츠를 현재 콘텐츠와 동일한 비율로 소비했다는 것을 알고 있습니다. 권고 신호는 측정 가능한 차이를 만들지 못했습니다. AI 에이전트가 항상 콘텐츠를 실시간으로 가져오는 것은 아니므로 그 효과는 누적됩니다. 학습된 모델을 활용합니다. 크롤러가 사용 중단된 문서를 수집하면 에이전트는 오래된 기반을 상속하게 됩니다.
오늘, 검증된 AI 학습 크롤러가 최신 콘텐츠로 리디렉션되도록 강제할 수 있는 AI 학습용 리디렉션 기능을 출시합니다. 기존 표준 태그는 모든 유료 Cloudflare 요금제에서 한 번의 토글 작업으로 자동으로 검증된 AI 학습 크롤러를 위한 HTTP 301 리디렉션이 됩니다.
또한 상태 코드는 웹이 궁극적으로 크롤러에게 정책을 전달하는 수단이므로, Radar의 AI Insights 페이지에는 이제 다양한 유형(성공(2xx), 리디렉션( 3xx), 클라이언트 오류(4xx), 서버 오류(5xx )을 보여주는 응답 상태 코드 분석이 포함됩니다. ) 중 웹이 오늘날 AI 크롤러에 어떻게 대응하는지를 보여주는 관점으로 AI 크롤러가 모든 Cloudflare 트래픽에서 수신하는 상태 코드 중 하나입니다.
검색 엔진의 경우, noindex 는 풍부한 신호 시스템 역할을 하지만, 페이지에서 "학습하지 마십시오"라는 내용의 인라인 지시문은 없습니다. 사용이 중단된 페이지를 경고 배너와 함께 라이브로 유지하는 것은 알림을 읽고 계속 탐색하는 사람에게 도움이 될 수 있지만, AI 학습 크롤러는 전체 텍스트를 수집하고 배너를 하나의 단락만 더 취급하여 경고가 종료된 후에도 수천 번을 반환할 위험이 있습니다. 가시성.
차단은 그 자체로 문제를 일으킵니다. 대신 크롤러가 무엇을 학습해야 하는지에 대한 신호 없이 보이드를 생성합니다. robots.txt 는 제한적인 보호 기능을 제공하지만, 자동화된 트래픽이 증가함에 따라 크롤러별, 경로별, 콘텐츠 업데이트별 지시문을 유지 관리하려면 많은 수동 유지보수가 필요합니다. 크롤러에게 필요한 것은 "현재 콘텐츠가 있는 곳입니다"라는 구체적인 지침입니다.
<link rel="canonical"> 태그는 RFC 6596 에 정의된 HTML 요소로, 검색 엔진과 자동화 시스템에 페이지의 권한 있는 버전을 나타내는 URL을 알려줍니다. 이는 이미 웹 페이지의 65-69% 에 존재하며 EmDash, WordPress, Contentful과 같은 플랫폼에서는 자동으로 생성됩니다. 해당 인프라는 콘텐츠의 현재 버전이 무엇인지 선언하고, AI 훈련용 리디렉션을 통해 이를 적용합니다.
AI 훈련을 위한 리디렉션은 Cloudflare cf.verified_bot_category 필드와 HTML에 이미 있는 <link rel="canonical"> 태그라는 두 가지 입력을 기반으로 작동합니다. AI 크롤러 카테고리 는 GPTBot, ClaudeBot, Bytespider 등 AI 모델 학습을 위해 크롤링하는 봇을 다루며, AI 에이전트를 다루는 AI 비서 및 AI Search 카테고리와는 다릅니다.
검증된 AI 크롤러에서 요청이 도착하면 Cloudflare에서는 응답 HTML을 읽습니다. 자체 참조되지 않는 정식 태그가 존재하는 경우, Cloudflare는 응답을 반환하기 전에 표준 URL에 301 Moved Permanently 를 발급합니다. 인간 트래픽, 검색 인덱싱, 기타 자동화된 트래픽은 영향을 받지 않습니다.
사용이 중단된 경로에 대한 GPTBot 요청의 모습은 다음과 같습니다.
GET /durable-objects/api/legacy-kv-storage-api/
Host: developers.cloudflare.com
User-Agent: Mozilla/5.0 (compatible; GPTBot/1.1; +https://openai.com/gptbot)
HTTP/1.1 301 Moved Permanently
Location: https://developers.cloudflare.com/durable-objects/api/sqlite-storage-api/
이는 이미 수집된 학습 데이터를 소급하여 수정하지 않으며 AI 크롤러 봇 범주 외부의 확인되지 않은 크롤러는 포함하지 않습니다. 사용 중단된 페이지를 방문하는 인간 에이전트와 AI 에이전트는 리디렉션되지 않습니다. 또한 교차 원본 표준(다른 도메인의 기본 설정 URL로 향하는 태그)은 콘텐츠 신규성보다는 도메인 통합에 사용되는 경우가 많으므로 설계 상 제외합니다. 루프를 피하기 위해 자체 참조 표준(자체 URL을 가리키는 페이지의 태그)도 리디렉션을 트리거하지 않습니다.
단일 리디렉션 규칙 은 사용자 에이전트 문자열을 통해 AI 크롤러를 대상으로 할 수 있으며, 사이트에 사용되지 않는 것으로 알려진 경로가 몇 개 있는 경우에도 효과가 있습니다. 하지만 규모가 확장되지는 않습니다. 새로 사용이 중단된 경로가 있을 때마다 규칙을 변경해야 하고, 사용자 에이전트를 수동으로 추적해야 하며, 캠페인 URL이나 도메인 마이그레이션에 사용될 수 있는 플랜 제한 사항 에 기여할 수 있습니다. 또한 리디렉션 규칙은 표준 태그가 이미 선언한 것을 수동으로 다시 인코딩하며, 콘텐츠가 변경되면 동기화되지 않습니다.
Cloudflare 자체 문서화 사이트에서 찾은 내용
Cloudflare의 경험에 따르면 이 문제는 현실입니다. 저희는 모든 Cloudflare 고객이 사용할 수 있는 동일한 대시보드를 사용하여 developers.cloudflare.com 에서 AI 크롤 제어를 실행합니다. 2026년 3월에 레거시 Workers 문서를 OpenAI에서 46,000회, Anthropic에서는 3,600회, Meta에서는 1,700회 크롤링했습니다.
사용 중단된 페이지를 크롤링하기 때문에, 2026년 4월에 Cloudflare에서 선도적인 AI 비서에게 "Wrangler CLI를 사용하여 KV 값을 작성하려면 어떻게 하나요?"라고 물어봤을 때 시대에 뒤떨어진 답변을 듣게 될 수도 있습니다. kv:keyput 명령을 사용하여 Wrangler CLI에 액세스할 수 있습니다."
사실, (2026년 4월 기준) 올바른 구문은 wrangler kv key put입니다. 콜론 구문(kv:key put)은 Wrangler 3.60.0에서 더 이상 사용되지 않습니다. 문서에는 인라인 사용 중단 알림이 있지만, 학습 파이프라인이 이를 어떻게 해석하는지 불분명합니다.
그래서 developers.cloudflare.com에서 Redirects for AI 훈련을 활성화하고 응답을 측정했습니다. 첫 7일 동안에는 비자체 참조 표준 태그가 있는 페이지에 대한 AI 학습 크롤러 요청의 100%가 리디렉션되었으며 사용이 중단된 콘텐츠가 제공되지 않았습니다.
크롤러를 현재 콘텐츠로 리디렉션하면 궁극적으로는 레거시 도구에 대해 AI가 생성한 답변이 개선될 것으로 기대합니다. 학습 파이프라인의 폐쇄적 특성과 리크롤링 타이밍의 변동성을 고려할 때, 이는 Cloudflare에서 계속 검증해야 할 가설입니다. 하지만 크롤러가 액세스 지점에서 수신하는 성능은 즉각적으로 개선되었습니다.
사이트에 표준 태그가 있는 경우, 이제 검증된 AI 학습 크롤러에 대해 기존 콘텐츠 계층 구조를 적용할 수 있습니다. Cloudflare의 검증된 봇 분류는 크롤러 식별을 자동으로 처리합니다.
대시보드에서: 모든 도메인에서 AI Crawl Control > 빠른 작업 > AI 학습을 위한 리디렉션 > 토글 켜기로 이동하세요.
Configuration Rules 및 Cloudflare for SaaS를 통한 경로별 제어에 대한 자세한 내용은 전체 문서를 참조하세요.
AI 훈련용 리디렉션은 하나의 상태 코드인 301 Moved Permanently를 콘텐츠 정책을 위한 시행 메커니즘으로 바꿉니다. 그러나 301은 원본과 크롤러 간의 광범위한 대화에서 하나의 신호입니다. A 200 OK는 콘텐츠가 제공되었다는 의미입니다. 403 Forbidden 은 액세스가 차단되었음을 의미합니다. 402 Payment Required 오류는 클라이언트에게 액세스 비용을 지불해야 한다고 알려줍니다. 종합해보면, AI 크롤러 트래픽에서의 상태 코드 분포를 통해 웹이 실제로 대규모로 크롤러에 응답하는 방식을 알 수 있습니다.
Radar의 AI 인사이트 페이지 에는 이제 AI 크롤러 트래픽에 대한 상위 응답 상태 코드 또는 응답 상태 코드 그룹(드롭다운을 통해 선택 가능)의 분포를 나타내는 응답 상태 코드 분석 그래프가 포함됩니다. 데이터는 산업 집합별로 필터링할 수 있습니다. 크롤링 목적 필터는 Data Explorer에도 적용할 수 있습니다. 필터링된 분석을 통해 특정 유형의 크롤러가 다르게 작동하는지 또는 요청 패턴과 분포가 산업별로 다른지 여부에 대한 관점을 얻을 수 있습니다.
아래의 일반적인 예시를 보면, 그래프에 나타난 기간 동안 요청의 70%를 조금 넘는 수준이 성공적으로 처리되었고(200), 요청의 10.1%는 다른 URL로 리디렉션되었으며(301, 302), 3.7%는 찾을 수 없는 파일(404)에 대한 것이었음을 알 수 있습니다. 요청의 8.3%에서 콘텐츠 액세스가 차단되었고, 403 응답 상태 코드가 수신되었습니다. 그룹화하여 살펴보면, 요청의 거의 74%는 성공적인 응답 (2xx)을 받았으며, 13.7%는 클라이언트 오류 응답 (4xx)을 받았으며, 11.3%는 리디렉션 메시지 (3xx)를, 1.2%는 서버 오류 응답 (5xx)을 받았습니다.
이 분석은 크롤러 동작의 이러한 측면에 대한 인사이트를 제공하기 위해 개별 봇 페이지 에도 추가되었습니다. 아래의 GPTBot 예시에서는 그래프에서 다룬 기간 동안 요청의 80%를 조금 넘는 비율이 성공적으로 처리되었으며(200), 요청의 4.7%는 다른 URL로 리디렉션되었고(301, 302), 찾을 수 없는 파일은 2.7%에 불과했습니다(404). 약 6%가 차단되었으며, Cloudflare에서는 403 응답 상태 코드를 반환했습니다. 그룹화하면 요청의 83%가 성공적인 응답 (2xx)을 받았고, 거의 10%가 클라이언트 오류 응답 (4xx)을 받았으며, 5.1%가 리디렉션 메시지 (3xx)를 받았고, 나머지 2.2%는 서버 오류 응답 (5xx)을 받았음을 알 수 있었습니다.
위에서 언급한 바와 같이, Radar의 Data Explorer를 사용하면 사용자가 추가 필터를 적용하여 데이터를 자세히 살펴볼 수 있습니다. 예를 들어 어떤 크롤러가 존재하지 않는 콘텐츠(404 응답 상태 코드 발생)를 가장 많이 요청하는지, 시간 경과에 따른 요청 트래픽 추세 또는 어떤 산업에서 리디렉션(3XX ) 응답을 가장 많이 보내는지 등을 살펴볼 수 있습니다. 훈련 크롤러에게 전송하여 시간에 따른 활동 추세를 확인할 수 있습니다.
집계 및 봇별 응답 상태 코드 데이터는 Cloudflare Radar API를 통해서도 확인할 수 있습니다.
AI 훈련용 리디렉션은 크롤러가 원본에서 수신하는 내용을 형성할 수 있도록 하며, Radar의 상태 코드 분석을 통해 나머지 웹도 어떻게 동일한 작업을 수행하고 있는지 확인할 수 있습니다. AI 학습을 위한 리디렉션을 AI 크롤링 제어 > 개요 > 빠른 작업에서 활성화하여 오늘부터 사이트에서 권장 신호를 강제 결과로 대체하세요.
질문이 있거나 진행하고 있는 내용을 공유하고 싶으신가요? Cloudflare 커뮤니티 에서 토론에 참여하거나 Discord에서 만나보세요.