구독해서 새 게시물에 대한 알림을 받으세요.

참조 트래픽의 감소 전조와 크롤링: AI가 콘텐츠 공급자에 미치는 영향 이해하기

2025-07-01

7분 읽기
이 게시물은 English, 繁體中文, Français, Deutsch, 日本語, Español, Nederlands简体中文로도 이용할 수 있습니다.

콘텐츠 게시자들은 검색 엔진의 크롤러와 봇이 사이트 방문자 수를 늘리는 데 기여했기 때문에 이를 좋아했습니다. 크롤러는 사이트에 게시된 콘텐츠를 확인하고 해당 자료를 검색하는 사용자에게 노출했습니다. 사이트 소유자는 사용자가 짧은 제목 이상의 콘텐츠를 보기 위해서는 페이지를 클릭하여 방문해야 했기에 콘텐츠를 수익화할 수 있었습니다.

인공지능(AI) 봇도 사이트의 콘텐츠를 크롤링하지만, 전혀 다른 전달 모델을 사용합니다. 이러한 대규모 언어 모델(LLM)은 웹 콘텐츠를 읽어 사용자가 원본 출처를 방문하지 않고도 해당 자료를 재구성할 수 있도록 시스템을 학습시키는 데 최선을 다합니다.

AI 애플리케이션이 그래도 콘텐츠를 인용하려고 시도할 수 있지만, 저희는 AI 봇이 특정 웹 사이트를 크롤링하는 빈도에 비해 실제로 클릭하는 사용자는 아주 적다는 사실을 확인했습니다. Cloudflare에서는 이 문제를 소규모 환경에서 논의해 왔으며, 오늘 Cloudflare Radar의 AI 인사이트 페이지에 새로운 메트릭으로 연구 결과를 공개하게 되어 기쁩니다.

Cloudflare Radar 방문자는 이제 특정 AI 모델이 사이트를 크롤링하는 빈도 대비 해당 사이트로 실제 트래픽을 전송하는 빈도를 검토할 수 있습니다. Cloudflare는 사이트 소유자가 어떤 AI 봇을 허용하거나 차단할지 결정하는 데 도움이 되는 더 나은 정보를 제공하고, 사용자들이 AI 사용이 전체적으로 인터넷 트래픽에 어떤 영향을 미치는지 이해할 수 있도록 이 분석을 광범위한 고객과 공유하고 있습니다.

이 측정은 어떻게 이루어지나요?

HTML 페이지는 아마도 이러한 크롤러에게 가장 가치 있는 콘텐츠일 것이므로, 표시되는 비율은 주어진 검색이나 AI 플랫폼과 연관된 관련 사용자 에이전트의 총 요청 수(응답이 Content-type: text/html인 경우)를 주어진 검색이나 AI 플랫폼과 연관된 호스트 이름이 포함된 Referer 헤더가 있는 HTML 콘텐츠에 대한 총 요청 수로 나누어 계산합니다.

아래 다이어그램은 일반적인 두 가지 크롤링 시나리오를 보여 주며, 기업에서 크롤러의 목적에 따라 다른 사용자 에이전트를 사용할 수 있음을 보여줍니다. 상단의 다이어그램은 예시 AI 플랫폼이 LLM 학습을 목적으로 콘텐츠를 요청하는 간단한 트랜잭션을 나타내며, 자체적으로 AIBot으로 나타납니다. 하단의 다이어그램은 예시 AI 플랫폼이 항공편 정보를 찾는 사용자 요청에 서비스를 제공하기 위해 콘텐츠를 요청하는 시나리오를 나타냅니다. 이 경우 AIBot은 자신을 AIBot-User로 표시합니다. 이 두 사용자 에이전트의 요청 트래픽은 분석을 위해 단일 플랫폼 이름으로 집계됩니다. 

사용자가 웹 사이트 또는 애플리케이션의 링크를 클릭하면 클라이언트는 Referer: 헤더를 요청의 일부로 대상 사이트로 전송합니다. 아래 다이어그램에서는 예시 AI 플랫폼이 사용자 상호작용에 응답하여 외부 사이트로 연결되는 링크를 포함한 콘텐츠를 반환했습니다. 사용자가 링크를 클릭하면 콘텐츠 공급자에게 ai.example.comReferer: 헤더에 포함된 요청이 전달되며, 해당 요청 트래픽의 출처를 알립니다. 호스트 이름은 저희 분석을 위해 각 플랫폼과 연계됩니다.

관찰 결과

비율 검토

새로운 메트릭은 주어진 플랫폼과 연관된 크롤러(사용자 에이전트)의 총 HTML 페이지 요청 수를 해당 플랫폼과 연관된 호스트명을 통해 클라이언트가 보낸 HTML 페이지 요청 수와 비교하는 간단한 표로 제시됩니다. 계산된 비율은 항상 하나의 참조 요청을 기준으로 정규화됩니다.

아래 표에는 예시로서 2025년 6월 19일부터 26일까지의 기간에 Anthropic의 70,900:1부터 Mistral의 0.1:1까지의 비율이 나와 있습니다. 이는 Anthropic의 AI 플랫폼 Claude의 경우에는 한 번의 HTML 페이지 리퍼럴 요청마다 71,000회의 HTML 페이지 요청이 수행된 반면, Mistral의 경우에는 리퍼럴 요청이 크롤링 요청보다 10배 많았다는 것을 의미합니다. (하지만 Claude의 네이티브 애플리케이션에서 리퍼럴 요청된 트래픽에는 Referer: 헤더가 포함되어 있지 않으며, 다른 네이티브 애플리케이션에서 생성된 트래픽도 동일할 것으로 추정됩니다. 따라서 리퍼럴 수에는 이러한 공급자의 웹 기반 도구에서 발생한 트래픽만 포함되므로 이러한 계산에는 실제 비율이 과대평가될 수 있지만, 얼마나 과대평가되었는지는 명확하지 않습니다.)

물론 어느 정도는 크롤링 패턴의 변화로 인해 시간이 지남에 따라 이러한 비율도 변합니다. 위의 표에는 이전 기간과 비교한 비율 변화가 표시되어 있으며, DuckDuckGo 및 Yandex의 6% 이상의 증가부터 Google의 19.4% 감소까지 그 변화도 다양합니다. 아래 그래프에서 볼 수 있듯이, Google의 주별 비율 감소는 6월 24일부터 GoogleBot 의 크롤링 트래픽에서 관찰된 감소세와 관련이 있는 반면, Yandex의 주별 증가는 6월 21일부터 YandexBot 크롤링 활동에서 관찰된 증가세와 관련이 있습니다.

Radar의 Data Explorer에는 아래 Baidu 예시와 같이 시간에 따라 이러한 비율이 어떻게 변하는지에 대한 시계열 보기가 포함됩니다. 이 시계열 데이터는 API 엔드포인트를 통해서도 제공됩니다.

참조 트래픽의 패턴

기본 활동의 변화와 추세는 관련된 Data Explorer 보기와 API 엔드포인트를 통해 제공되는 원시 데이터(시계열, 요약)에서도 확인할 수 있습니다. 참조 페이지 트래픽과 크롤링 트래픽의 점유율은 그래프에 포함된 참조 페이지와 크롤러 집합에 대한 상대적인 비율이며, 전체 Cloudflare 트래픽에 대한 것이 아님을 유의하세요.

예를 들어, 2025년 6월의 첫 4주 가까이에 걸친 기간에 관한 아래의 리퍼러 중심 보기에서는 리퍼럴 트래픽을 검색 플랫폼인 Google이 주도하고 있다는 것을 볼 수 있고, 데이터에서 매우 일관된 일일 패턴을 볼 수 있습니다. (google.* 항목에는 기본 google.com 사이트와 google.es 또는 google.com.tw 같은 로컬 사이트의 리퍼럴 트래픽이 포함됩니다.) 추측 규칙의 사용에 의해 구동되는 프리페치 때문에 Google의 자율 시스템 번호(AS15169)에서 들어오는 리퍼럴 트래픽은 콘텐츠의 적극적인 사용자 소비를 나타내지 않으므로 여기에서는 분석에서 구체적으로 제외되었습니다.

다른 검색 플랫폼의 리퍼럴 요청 점유율에서도 뚜렷한 일일 패턴을 볼 수 있지만, Google에서 관찰되는 것의 일부에 불과합니다. 

6월 한 달간 AI 플랫폼의 리퍼럴 트래픽 점유율은 집계된 수치로 보더라도 검색 플랫폼의 리퍼럴 트래픽 점유율보다 현저히 낮았습니다.

크롤링 트래픽의 변화

앞서 언급했듯이 시간에 따른 비율 값의 변화는 크롤링 활동의 변화에 의해 발생할 수 있습니다. 이러한 변화는 Data Explorer에서 확인할 수 있는 크롤링 트래픽 점유율과 API 엔드포인트를 통해 확인할 수 있는 원시 데이터(timeseries, summary)로 알아볼 수 있습니다. 2025년 6월 첫 4주 동안을 기록한 아래 크롤러 중심 보기를 보면, GooglebotGoogleOther 식별자 모두에 대해 Google의 크롤링 활동과 관련된 요청의 점유율이 여러 피크/밸리 기간을 기록하며 해당 월 동안 평균을 벗어나는 것을 볼 수 있습니다. 같은 기간에 Google의 AS15169로부터의 HTTP 요청 트래픽에서 관찰된 유사한 패턴은 이렇게 관찰된 점유율 감소와 대략적으로 일치합니다.

또한 OpenAI의 GPTBot은 해당 월 동안 크롤링 활동이 거의 또는 전혀 관찰되지 않은 기간이 여러 번 있었습니다.

이것이 콘텐츠 공급자에게 시사하는 바

이러한 비율은 인터넷 콘텐츠 게시의 지속 가능성에 직접적인 영향을 미칩니다. 시간에 따라 변동이 있겠지만, 서로 비교했을 때 크롤링은 증가하고 참조는 감소하는 추세가 지속되고 있습니다. 기존 검색 인덱스 크롤러는 방문자 한 명당 콘텐츠를 2회 이하로 스캔합니다. 크롤러가 사이트를 이용할 수 있게 되면서 수익 모델의 실행 가능성이 높아진 것이지 낮아진 것은 아닙니다.

Cludflare에서 관찰한 새로운 데이터에 따르면 이제는 그렇지 않다는 것을 알 수 있습니다. 이러한 모델들은 콘텐츠 출처에 동일하거나 더 적은 트래픽을 전송하면서도 점점 더 자주 더 많은 콘텐츠를 소비하고 있습니다.

지난 해에 Cloudflare에서는 사이트 소유자가 제어 능력을 되찾을 수 있도록 새로운 도구들을 출시했습니다. 게시자는 클릭 한 번으로 자신의 콘텐츠에 대해 학습하는 종류의 AI 크롤러를 차단할 수 있습니다. 그리고 오늘 Cloudflare는 양쪽 모두가 가치를 공정하게 교환할 수 있도록 하는 새로운 방법을 발표했습니다. 하지만 Cloudflare에서는 콘텐츠 크리에이터가 계속해서 감사를 진행하면서 AI 크롤러에 대해 선호하는 정책을 시행할 것을 권장합니다.

추가 내용

크롤링, 리퍼럴 트래픽, 관련 동향에 대한 새로운 인사이트를 제공하는 것에 더해, Cloudflare는 이번 기회에 검증된 봇 콘텐츠를 확대 출시했습니다. Cloudflare Radar의 봇 페이지에는 페이지를 매긴 검증된 봇 목록이 있으며, 여기에 봇 이름, 소유자, 카테고리, 순위(요청 볼륨별)가 나와 있습니다. 그리고 이제 이 목록이 새로운 봇 섹션 내 독립 실행형 디렉터리로 확장되었습니다. 아래에 표시된 디렉터리에는 검증된 봇별로 봇 이름, 설명, 봇 소유자와 카테고리, 검증 상태가 나와 있는 카드가 표시됩니다. 사용자는 봇 이름, 소유자, 설명별로 디렉터리를 검색할 수 있으며 카테고리별로 필터링할 수도 있습니다(예: 모니터링 및 분석 봇만 선택).

카드에 있는 봇 이름을 클릭하면 봇 관련 페이지가 나타납니다. 여기에는 봇에 대한 메타데이터, 봇의 사용자 에이전트가 HTTP 요청 헤더에 표시되는 방법과 robots.txt 지시문에 명시되는 방법에 대한 정보, 그리고 선택한 기간 동안 관련 HTTP 요청 볼륨 추세를 보여주는 트래픽 그래프(이전 기간과의 기본 비교 포함)가 포함되어 있습니다. API를 통해서도 관련 데이터를 얻을 수 있습니다. 향후 봇 관련 페이지에 추가 정보가 추가되는 대로 변경 로그 항목에 업데이트 사항을 문서화할 예정입니다.

Cloudflare에서는 전체 기업 네트워크를 보호하고, 고객이 인터넷 규모의 애플리케이션을 효과적으로 구축하도록 지원하며, 웹 사이트와 인터넷 애플리케이션을 가속화하고, DDoS 공격을 막으며, 해커를 막고, Zero Trust로 향하는 고객의 여정을 지원합니다.

어떤 장치로든 1.1.1.1에 방문해 인터넷을 더 빠르고 안전하게 만들어 주는 Cloudflare의 무료 애플리케이션을 사용해 보세요.

더 나은 인터넷을 만들기 위한 Cloudflare의 사명을 자세히 알아보려면 여기에서 시작하세요. 새로운 커리어 경로를 찾고 있다면 채용 공고를 확인해 보세요.
Pay per crawlRadar인터넷 트래픽AI

X에서 팔로우하기

David Belson|@dbelson
Cloudflare|@cloudflare

관련 게시물