본 콘텐츠는 사용자의 편의를 고려해 자동 기계 번역 서비스를 사용하였습니다. 영어 원문과 다른 오류, 누락 또는 해석상의 미묘한 차이가 포함될 수 있습니다. 필요하시다면 영어 원문을 참조하시기를 바랍니다.
Cloudflare 데이터에 따르면 Cloudflare 네트워크 전체 트래픽의 32%가 자동화된 트래픽에서 발생합니다. 여기에는 검색 엔진 크롤러, 가동 시간 검사기, 광고 네트워크가 포함되며, 최근에는 검색 증강 생성 (RAG)을 통해 응답을 생성하면서 지식 베이스에 관련 데이터를 추가하기 위해 웹을 살펴보는 AI 어시스턴트가 포함됩니다. 일반적인 인간 행동과 달리, AI 에이전트, 크롤러, 스크래퍼의 자동화된 행동은 요청에 응답하는 서버에 공격적으로 보일 수 있습니다.
예를 들어, AI 봇은 대량의 요청을 자주 동시에 발행합니다. 인기 있는 페이지에 집중하는 대신 사이트에서 거의 방문하지 않거나 느슨하게 관련된 콘텐츠에 액세스할 수 있으며, 종종 웹 사이트를 순차적으로 완전히 스캔합니다. 예를 들어, 응답을 생성하는 AI 어시스턴트는 관련되지 않은 수십 개의 소스에서 이미지, 문서, 지식 문서를 가져올 수 있습니다.
Cloudflare에서 이미 콘텐츠에 대한 자동화된 액세스를 제어하고 제한하도록 쉽게 제공하고 있지만, 많은 사이트에서 AI 트래픽을 제공하기를 원할 수 있습니다. 예를 들어, 애플리케이션 개발자는 개발자 문서에 기본 AI 모델의 최신 정보를 보장하고 싶을 수 있으며, 전자 상거래 사이트에서는 제품 설명이 LLM 검색 결과에 포함되도록 할 수 있습니다. 또는 퍼블리셔는 크롤링당 결제와 같은 메커니즘을 통해 콘텐츠에 대한 대가를 받고 싶을 수 있습니다.
따라서 웹 사이트 운영자는 AI 크롤러와 인간 트래픽이라는 이분법적인 문제에 직면합니다. 두 캐시의 트래픽 패턴이 크게 다른 점을 감안할 때 현재 캐시 아키텍처에서는 운영자가 리소스를 절약하기 위해 한 가지 접근 방식을 선택해야 합니다.
이 게시물에서는 AI 트래픽이 스토리지 캐시에 미치는 영향을 살펴보고, 이러한 영향을 완화하는 데 관련된 몇 가지 과제를 설명하며, AI 시대에 맞춰 CDN 캐시를 조정할 때 커뮤니티가 고려해야 할 방향을 제안합니다.
이 연구는 ETH Zurich 연구팀과의 협업으로 이루어진 것입니다. 이 연구의 전체 버전은 2025년 클라우드 컴퓨팅 심포지엄 에서 Zhang 등은 “AI 시대를 위한 웹 캐시 설계 다시 생각하기”라는 제목으로 발표되었습니다.
캐싱에 대해 간단히 다시 살펴보는 것부터 시작하겠습니다. 사용자가 장치에서 콘텐츠를 요청하면, 일반적으로 이 요청은 가장 가까운 Cloudflare 데이터 센터로 전송됩니다. 요청이 도착하면 Cloudflare는 유효한 캐시 사본이 있는지 확인합니다. 콘텐츠가 있으면 콘텐츠를 즉시 제공할 수 있으므로 응답이 빨라지고 사용자가 만족할 수 있습니다. 캐시에서 콘텐츠를 읽을 수 없는 경우("캐시 누락"), Cloudflare 데이터 센터는 원본 서버 에 연락하여 새 사본을 가져오고, 이는 만료되거나 다른 데이터에 의해 밀려날 때까지 캐시에 남아 있습니다.
캐시에 올바른 요소를 유지하는 것은 캐시 누락을 줄이고 훌륭한 사용자 경험을 제공하는 데 중요하지만, 인간 트래픽에 ‘올바른’ 요소는 AI 크롤러에 적합한 요소와 매우 다를 수 있습니다!
여기에서는 AI 크롤러 트래픽에 집중하겠습니다. AI 크롤러는 최근 분석에서 가장 활동적인 AI 봇 유형으로 부상했으며, 자체 식별된 AI 봇 트래픽의 80%를 차지합니다. AI 크롤러는 질문에 대답하거나 페이지를 요약하는 등 실시간 AI 서비스를 지원하기 위해 콘텐츠를 가져오며, LLM과 같은 모델을 위한 대규모 학습 데이터 세트를 구축하기 위해 데이터를 수집합니다.
Cloudflare Radar에서 확인한 결과, 단일 목적 AI 봇 트래픽의 대부분은 학습을 위한 것이며, 검색은 그보다 훨씬 적습니다. (Cloudflare에서 확인되는 AI 크롤러 트래픽에 대한 심층적인 논의는 이 블로그 게시물 을 참조하세요).
검색 크롤링과 학습 크롤링 모두 수많은 순차적, 롱테일 액세스를 통해 캐시에 영향을 미치지만, 학습 트래픽은 고유한 URL 비율이 높고, 콘텐츠가 다양하며, 비효율적인 크롤링을 할 수 있어 캐시에 더 큰 영향을 미칩니다.
AI 트래픽은 CDN의 다른 트래픽과 어떻게 다를까요?
AI 크롤러 트래픽에는 높은 고유 URL 비율, 콘텐츠 다양성, 크롤링 비효율성이라는 세 가지 주요 차별화 특징이 있습니다.
매달 대규모 웹 크롤링을 수행하는 공개 크롤링 통계 에 따르면, Common Crawl에서 콘텐츠별로 고유한 페이지가 90% 이상인 것으로 나타났습니다. 각기 다른 AI 크롤러는 고유한 콘텐츠 유형을 대상으로 합니다. 예를 들어 일부는 기술 문서를 전문으로 하는 반면 다른 크롤러는 소스 코드, 미디어, 블로그 게시물을 중점적으로 다룹니다. 마지막으로 AI 크롤러는 반드시 최적의 크롤링 경로를 따르지는 않습니다. 인기 있는 AI 크롤러의 가져오기 작업 중 상당수는 404 오류 또는 리디렉션을 발생시키며, URL 처리가 미흡한 경우가 많습니다. 이러한 비효율적인 요청의 비율은 크롤러가 의미 있는 라이브 콘텐츠에 얼마나 잘 맞춰져 있는지에 따라 달라집니다. AI 크롤러는 일반적으로 인간 사용자와 같은 방식으로 브라우저 측 캐싱이나 세션 관리를 사용하지 않습니다. AI 크롤러는 여러 독립 인스턴스를 시작할 수 있으며, 세션을 공유하지 않으므로 모든 인스턴스가 동일한 콘텐츠를 요청하는 경우에도 각각 세션이 CDN에 새로운 방문자로 표시될 수 있습니다.
AI 크롤러는 하나만 있어도 일반적인 인간 사용자보다 웹 사이트를 더 깊이 탐색하고 더 광범위한 콘텐츠를 탐색할 수 있습니다. Wikipedia의 사용 데이터에 따르면, 한때 "롱테일" 또는 거의 액세스되지 않는 페이지로 간주되었던 페이지들이 이제 자주 요청되면서 CDN 캐시 내 콘텐츠 인기도 분포가 변화하고 있습니다. 실제로 AI 에이전트는 반복적으로 루프를 반복하여 검색 결과를 개선하고, 동일한 콘텐츠를 반복적으로 스크래핑할 수 있습니다. 반복 루프가 콘텐츠 재사용률을 낮추고 적용 범위를 넓히는 것을 보여주기 위해 이를 모델링했습니다.
저희 AI 에이전트 행동을 모델링한 결과, AI 에이전트는 루프를 반복하여 검색 결과를 개선할 때마다 일반적으로 70%에서 100% 사이의 높은 고유 액세스 비율 (위의 빨간색 열)을 지속적으로 유지하는 것으로 나타났습니다. 이는 각 루프가 일반적으로 에이전트(여기에서 파란색 선으로 표시됨)의 정확도 를 증가시키면서 이전에 본 페이지를 다시 방문하는 대신 지속해서 새롭고 고유한 콘텐츠를 가져옴을 의미합니다.
롱테일 자산에 이렇게 반복적으로 액세스하면 인간 트래픽이 의존하는 캐시가 변동됩니다. 그러면 크롤러 트래픽의 양이 증가함에 따라 기존의 프리페치 및 기존 캐시 무효화 전략의 효과가 줄어들 수 있습니다.
CDN의 경우, 캐시 누락은 요청된 콘텐츠를 가져오기 위해 원본 서버로 이동해야 함을 의미합니다. 캐시 누락은 지역 도서관에 책이 없어 도서관 간 대출을 통해 책을 대출받을 때까지 기다려야 하는 것과 같다고 생각하면 됩니다. 언젠가는 책을 받게 되지만, 예상보다 시간이 오래 걸릴 것입니다. 또한 해당 책을 현지에 갖추는 것이 좋은 생각일 수 있다는 정보도 도서관에 알려줍니다.
AI 크롤러는 롱테일을 재사용하며 광범위하고 예측할 수 없는 액세스 패턴으로 인해 캐시 누락률을 크게 높입니다. 그리고 캐시 추측 또는 프리페칭과 같이 캐시 적중률을 개선하는 많은 일반적인 방법도 훨씬 덜 효과적입니다.
아래 첫 번째 차트에는 Cloudflare CDN의 단일 노드에 대한 캐시 적중률의 차이가 확인된 AI 크롤러 유무와 관계가 있습니다. 크롤러의 영향은 여전히 상대적으로 제한적이지만, AI 크롤러 트래픽이 추가되면서 적중률이 분명히 감소했습니다. Cloudflare는 “가장 최근에 사용되지 않은”, 즉 LRU라는 알고리즘을 사용하여 캐시를 관리합니다. 즉, 저장 공간이 가득 차면 가장 적게 요청된 콘텐츠를 캐시에서 먼저 제거하여 더 인기 있는 콘텐츠를 위한 공간을 확보할 수 있습니다. 적중률이 감소한 것은 AI 크롤러의 반복되는 스캔 동작으로 인해 LRU가 어려움을 겪고 있음을 의미합니다.
하단의 그림에는 이 기간 동안의 Al 캐시 누락이 나와 있습니다. 이러한 캐시 누락은 오리진에 대한 요청을 나타내므로 응답 시간이 느려지고 원본의 송신 비용과 부하가 증가합니다.
이러한 AI 봇 트래픽의 급증은 실제 영향을 미쳤습니다. Cloudflare의 논문의 다음 표에 여러 대규모 웹 사이트에 미친 영향이 나와 있습니다. 각 예시는 출처 보고서로 연결됩니다.
시스템 | 보고된 AI 트래픽 행동 | 보고된 영향 | 보고된 완화 |
Wikipedia | 모델 학습을 위한 대량 이미지 스크래핑1 | 50% 급증한 멀티미디어 대역폭 사용량1 | 차단된 크롤러 트래픽1 |
SourceHut | LLM 크롤러의 스크래핑 코드 리포지터리2,3 | 서비스 불안정 및 속도 저하2,3 | 차단된 크롤러 트래픽2,3 |
문서 읽기 | AI 크롤러는 매일 수백 번 대용량 파일을 다운로드합니다2,4 | 상당한 대역폭 증가2,4 | 크롤러 트래픽 일시적으로 차단, IP 기반 레이트 리미팅 수행, 캐싱 개선을 위해 CDN 재구성2,4 |
Fedora | AI 스크래퍼는 패키지 미러를 재귀적으로 크롤링합니다2,5,6 | 인간 사용자의 느린 응답2,5,6 | 여러 서브넷 및 국가까지 차단하면서 알려진 봇 소스에서 지리적으로 차단된 트래픽2,5,6 |
디아스포라 | robots.txt를 준수하지 않는 적극적인 스크래핑7 | 인간 사용자의 느린 응답 및 가동 중지 시간7 | 크롤러 트래픽 차단 및 속도 제한 추가됨7 |
그 영향은 심각합니다. Wikimedia는 대량 이미지 스크래핑으로 인해 멀티미디어 대역폭 사용량이 50% 급증했습니다. 대규모 소프트웨어 패키지를 호스팅하는 Fedora와 Diasora 소셜 네트워크의 경우 사용자인 사용자의 경우 과도한 부하와 저조한 성능을 경험했습니다. 다른 많은 사람은 반복적으로 큰 파일을 다운로드하는 AI 봇으로 인한 대역폭 증가나 속도 저하를 경험했습니다. 크롤러 트래픽을 차단하면 그 영향이 일부 완화되지만, 사이트 운영자는 더 스마트한 캐시 아키텍처를 통해 인간 사용자의 응답 시간을 유지하면서 AI 크롤러에게 서비스를 제공할 수 있습니다.
AI 크롤러는 검색 증강 생성(RAG) 또는 실시간 요약화 등의 라이브 애플리케이션을 지원하므로 대기 시간이 중요합니다. 그렇기 때문에 이러한 요청은 더 큰 용량과 적절한 응답 시간의 균형을 맞출 수 있는 캐시로 라우팅되어야 합니다. 이러한 캐시는 신선도가 유지되어야 하지만, 사람이 직접 보는 캐시보다 약간 더 긴 액세스 대기 시간을 견딜 수 있습니다.
AI 크롤러는 훈련 세트를 구축하고 대규모 콘텐츠 수집 작업을 실행하는 데에도 사용됩니다. 이러한 워크로드는 훨씬 더 높은 대기 시간을 허용할 수 있으며 시간에 민감하지 않습니다. 따라서 요청은 도달하는 데 시간이 더 걸리는 심층 캐시 계층(예: 원본 측 SSD 캐시)에서 제공되거나 백엔드 과부하를 방지하기 위해 대기열 기반 허용 또는 레이트 리미터를 사용하여 지연될 수도 있습니다. 이를 통해 인프라에 부하가 걸려 있을 때 대화형 인간 또는 AI 사용 사례에 영향을 주지 않고 대량 스크래핑을 연기할 수도 있습니다.
Cloudflare의 AI Index 및 Markdown for Agents 와 같은 기존 프로젝트를 통해 웹사이트 운영자는 알려진 AI 에이전트 및 봇에게 웹사이트의 간소화 또는 축소된 버전을 제시할 수 있습니다. 앞으로 더 많은 조치를 통해 AI 트래픽이 CDN 캐시에 미치는 영향을 완화하여 모두를 위해 캐시 성능을 개선할 계획을 세우고 있습니다. 당사는 ETH Zurich의 협력업체와 함께 두 가지 상호 보완적인 접근법을 실험 중입니다. 첫 번째는 AI 인식 캐싱 알고리즘을 이용한 트래픽 필터링입니다. 두 번째로, AI 크롤러와 인간 트래픽 모두의 성능을 개선하는 AI 크롤러 트래픽을 캐시로 끌어들이는 완전히 새로운 캐시 계층을 추가하는 방법을 모색합니다.
LRU("가장 최근에 사용된 것"), LFU("가장 자주 사용되지 않음"), FIFO("선입선출")와 같은 여러 유형의 캐시 대체 알고리즘은 스토리지가 캐시에 캐시로 저장되는 방식을 제어합니다 새로운 요소를 추가해야 하고 캐시가 가득 차면 캐시에서 요소를 만료시킵니다. LRU는 일반적인 상황에서 단순성, 낮은 오버헤드, 효율성이 가장 잘 균형을 이루는 경우가 많으며 널리 사용됩니다. 그러나 인간과 AI 봇이 혼합된 트래픽의 경우, 초기 실험에서 특히 SEIVE 또는 S3FIFO를 사용하여 캐시 대체 알고리즘을 다르게 선택하면 인간 트래픽의 AI 간섭 유무와 관계없이 동일한 적중률을 달성할 수 있는 것으로 나타났습니다. 또한 더 빠르고 저렴한 캐시를 위해 실시간으로 캐시 응답을 사용자 지정할 수 있는, 보다 직접적으로 작업 부하를 인식하는 머신 러닝 기반 캐싱 알고리즘을 개발하는 실험도 진행되고 있습니다.
장기적으로는 AI 트래픽을 위한 별도의 캐시 계층이 최선의 방법이 될 것으로 예상됩니다. 네트워크의 서로 다른 계층에 배포된 고유한 계층으로 인간과 AI 트래픽을 라우팅하는 캐시 아키텍처를 상상해 보세요. 인간 트래픽은 반응성 및 캐시 적중률이 우선시되는 CDN PoP에 위치한 에지 캐시에서 계속 제공될 것입니다. AI 트래픽의 경우 캐시 처리는 작업 유형에 따라 다를 수 있습니다.
클라우드 인프라에 대한 AI 봇 트래픽의 영향은 앞으로 몇 년이 지나면서 더욱 커질 것입니다. 전 세계에 걸쳐 CDN에 미치는 영향을 더 잘 특성화하고, 이 새로운 워크로드를 해결하고 더 나은 인터넷을 만들기 위해서는 과감하고 새로운 캐시 정책 및 아키텍처가 필요합니다.
Cloudflare는 우리가 제시한 문제를 이미 해결하고 있습니다. Cloudflare는 AI 인식 캐싱을 통해 높은 봇 트래픽을 경험하는 고객의 대역폭 비용을 절감하며, AI Crawl Control 및 크롤링당 결제 도구를 통해 고객이 누가 자신의 콘텐츠에 프로그래밍 방식으로 액세스하는지 더 잘 제어할 수 있도록 합니다.
이 분야는 이제 막 시작되었습니다. 새로운 ML 기반 캐싱 알고리즘을 구축하거나 새로운 캐시 아키텍처를 설계하는 데 관심이 있다면 인턴십에 지원하세요! Cloudflare에서는 2026년 여름과 가을에 인턴십 직책을 포함하여 AI와 시스템의 교차점에 있는 다른 흥미로운 문제를 해결하기 위한 인턴십 자리를 제공합니다.