까다로운 인터넷 측정 과학

본 콘텐츠는 사용자의 편의를 고려해 자동 기계 번역 서비스를 사용하였습니다. 영어 원문과 다른 오류, 누락 또는 해석상의 미묘한 차이가 포함될 수 있습니다. 필요하시다면 영어 원문을 참조하시기를 바랍니다.

측정은 세계와 우주뿐만 아니라 Cloudflare에서 설계하고 배포하는 시스템을 이해하는 데 매우 중요합니다. 인터넷도 예외는 아니지만, 인터넷 측정의 과제도 독특합니다.

인터넷은 매우 난해하며, 이는 개방형 다중 이해관계자 모델을 고려할 때 직관적이지 않습니다. 궁극적으로 인터넷이 관련되지 않은 주체가 각각 소유하고 운영하며 시스템에 대해 공유하거나 보고하는 경우가 거의 없는 많은 네트워크와 서비스와 결합하게 되기 때문에 불투명합니다. 모든 네트워크는 다른 시스템이 생산하는 것을 전달할 수 있지만, 각 시스템은 완전히 독립적입니다. 이것이 바로 인터넷의 마법과도 같습니다. 이처럼 불투명하지만 중요한 맥락에서 인터넷의 측정은 모든 엄격함, 반복성, 재생산을 아우르는 과학적 관행으로 존재해야 합니다.

과학적 실천으로서 측정은 흥미로운 결과를 초래할 수 있습니다. 그 결과가 맞기도 하고 그되기도 합니다. 몇 가지 미묘한 점을 다음과 같이 설명합니다.

“과학자 6명 중 5명은 러시안 룰렛 이 안전하다고 말합니다.”

이 말은 말도 안 돼요! 이 말은 논리적일 뿐이라, 비웃을 수도 있습니다. 위의 진술로 이어지는 실험을 설계하는 것은 아주 간단합니다. 그러나 다음과 같이 '행위자', 즉 실험을 수행하는 사람이 실험을 믿을 수 있게 만드는 측정 과학의 모든 측면을 무시하는 경우에만 이 실험이 성공할 수 있습니다.

방법론: 데이터 큐레이션, 모델링, 검증으로 구성된 주기입니다. 여기에서 실험(데이터 큐레이션)은 각 참가자가 다른 참가자의 부상을 볼 수 없도록 차단된 경우에만 성공할 수 있습니다. 더 중요한 것은 행위자가 실험 없이 사용 가능한 숫자로 확률을 계산할 수 있으므로 측정이 필요하지 않다는 것입니다!
윤리: 우리의 측정 방식은 과도하고 바람직하지 않은 결과를 초래할 수 있습니다. 최소한의 원칙은 해를 끼치지 않는 것입니다.
표현: 명확하고 완전한 진술 또는 시각화는 최소한 정보를 제공하고 이상적으로는 실행 가능해야 합니다. 그렇지 않으면 오해의 소지가 있습니다. 각 참가자가 "안전합니까?"라는 질문에 예라고 답했다고 가정해 보겠습니다. 이들은 "게임은 안전합니까?"라는 질문과 다른 질문에 답하고 있습니다.

이 블로그에서는 앞서 언급한 측정의 각 측면을 살펴보고, 이러한 측정 측면이 인터넷에서 어떻게 나타나는지 설명하며, 이번 주에 소개될 업무 사례와 이를 연관 짓습니다. 먼저 배경 지식부터 시작하겠습니다.

서문: 동기를 부여하는 Cloudflare 내부의 예시

수준 높은 측정치는 우리의 경험, 환경, 시스템을 파악하고 이해하며 설명하는 데 도움이 됩니다. 하지만 맥락 없이 단독으로 관찰하는 것은 위험할 수 있습니다. 다음은 우크라이나 리비우에서 2022년 2월 28일 저녁까지 HTTP 요청에 대한 내부 그래프의 시계열입니다.

당일 이 지역의 트래픽은 3~4배 증가했습니다. 예를 들어, 러시아의 우크라이나 침공은 나흘 전에 시작되었습니다. 전 세계가 사건을 예의주시하고 있었습니다. Cloudflare도 예외가 아니었으며, 네트워크 영향을 보고 하고 완화하는 데 도움을 주었습니다.

이러한 비정상적인 급증을 목격했을 때 Cloudflare는 해당 증가를 잠재적인 DoS 공격으로 잘못 보고할 수 있었습니다. 그러나 반대 징후도 있었습니다. 첫째, DoS 방어 및 완화 시스템에서 감지된 공격은 없습니다. 또한 이 프로필은 공격 트래픽에서 흔히 볼 수 있는 형태로, 단일 위치에서 단일 소스이거나 여러 위치에서 다수의 소스에서 발생하는 경향이 있었습니다. 이번 사례의 경우, 트래픽 증가는 여러 소스 네트워크에서 발생했지만, 이는 단일 위치(Lviv)에서 발생했습니다.

Cloudflare는 오류 보고를 피할 수 있는 도구를 보유하고 있었으며 나중에 우크라이나에서 서쪽으로 여정을 시작하는 마지막 기차 역이 있는 도시인 리보우에 사람들이 대량으로 모였기 때문에 인구 증가가 발생했다고 정확하게 보고했습니다. 하지만 — 그리고 이것은 측정 컨텍스트에서 중요합니다 — Cloudflare의 관점에서 볼 때는 그 어떤 것으로도 설명을 제공할 수 없습니다. 결국 한 직원이 BBC에서 우크라이나 지역에서 사람들이 엄청나게 이동한다는 보도를 시청하면서 트래픽 변화를 더 잘 설명할 수 있었습니다.

이 예시는 항상 다른 대안을 찾아야 한다는 점을 상기시켜 줍니다. 또한 관찰만으로는 누락된 정보나 인식할 수 없는 편향 때문에 잘못된 결론으로 이어질 수 있다는 것도 보여줍니다. 하지만 편향이 없는 좋은 수치도 오해를 일으킬 수 있습니다.

측정 관련 용어 및 전문 용어

측정 맥락에는 실제와 예시로 들어가기 전에 알아두면 유용한 구체적인 의미를 가진 일반적인 단어들이 수록되어 있습니다.

능동 및 수동 측정

'어떻게'를 설명할 수 있습니다. 능동 측정에서 행위자는 응답을 트리거하도록 설계된 몇 가지 행동 을 시작합니다. 응답은 쿼리에 대한 ping 또는 DNS 응답에서 반환된 대기 시간과 같은 데이터일 수 있습니다. 이러한 응답은 미들 장비의 반응을 프롬프트하고 미들 장비를 노출하는 잘 만들어진 프로브 패킷과 같이 작업에 의해 트리거되는 메커니즘이나 시스템에서 관찰 가능한 변화일 수 있습니다.

수동적 측정에서는 행위자가 관찰만 합니다. 아무런 조치도 취하지 않습니다. 따라서 응답이 트리거되지 않습니다. 시스템의 동작은 변경되지 않습니다. 일반적으로 로그는 수동적인 관찰을 통해 수집되며, Cloudflare의 로그도 예외는 아닙니다. Cloudflare Radar 에 표시되는 데이터의 대부분은 이러한 로그에서 비롯됩니다.

각각 장단점이 있습니다. 활성 측정은 대상을 지정하고 제어할 수 있습니다. 또한, 이들은 확장하기가 매우 어려우며(그리고 종종 비용이 많이 들며), 결과적으로 시스템에서 배포된 부분만 관찰할 수 있습니다. 반대로 수동적 측정은 무게가 더 가벼운 경향이 있지만, 관찰자가 적절한 시간에 올바른 장소에 있을 때만 성공할 수 있습니다.

사실상, 두 방법은 서로를 보완하며, 한 가지의 지식이 다른 방법으로 전달될 수 있도록 오케스트레이션할 때 두 방법은 가장 강력합니다. 예를 들어, CDN 전반의 성능을 이해하기 위한 이전 시도에서, 인사이트를 얻기 위해 (수동) 요청 로그를 조사했고, 이는 인사이트와 결과를 확인하는 데 이용했던 RIPE의 Atlas를 사용하여 추후(능동) 핑에 알리는 데 도움이 되었습니다. 반대로, 연결 오류를 (수동적으로) 감지하고 이해하려는 저희 노력은 대규모 연결 변조를 이해하기 위한 연구 커뮤니티의 많은 (능동적) 측정에 의해 정보가 제공되었으며, 그 결과로만 가능했을 것입니다.

능동태와 수동태의 상호작용에 대해 자세히 알아보려면, 연구 커뮤니티에서 이전에 수행한 능동적 측정에서 얻은 인사이트를 통해 Cloudflare의 방대한 데이터를 깊이 파헤칠 능력을 갖춘 한 연구원의 경험에 대해 읽어보세요.

직접 및 간접 측정

무언가를 직접 관찰하지 않고도 통찰력을 얻을 수 있습니다. 예를 들어, 대역폭으로 더 잘 알려진 경로의 용량을 고려할 수 있습니다. 대역폭을 직접 관찰하는 일반적인 방법은 속도 테스트를 시작하는 것입니다. 간단한 테스트이지만, 두 가지 문제점이 있습니다.

첫 번째 이유는 가능한 한 많은 대역폭을 소비하여 작동한다는 것입니다(이 때문에 나중에 다시 다루게 될 윤리적 딜레마가 생깁니다). 두 번째는 송신자에서 수신자까지의 처리량을 실제로 측정한다는 점으로, 이는 병목 링크의 가용 대역폭(또는 잔여 용량)입니다. 두 속도 테스트에서 병목 현상이 있다면 각각의 처리량은 실제 대역폭의 1/2에 해당합니다. 그 증거는 아래와 같이 숫자에 나와 있는데, 속도 테스트의 범위는 69~85Mbps이며, 이는 중앙값에서 거의 20%의 +/- 범위이며, 고정된 값과는 거리가 멉니다!

대신, 25년 이상 된 패킷 페어 또는 패킷 트레인이라는 속도 테스트의 간접적인 대안이 있습니다. 이는 먼저 패킷 쌍 사이의 지연 없이 전송 시간을 기록한 다음 도착 시간을 기록하는 방식으로 작동합니다. 두 패킷의 전송과 도착 시간 간의 변화로 대역폭 병목 현상을 알 수 있습니다. 패킷 쌍 조사를 반복하면 통계 분석을 통해 실제 병목 대역폭에 대한 적절한 추정치가 나타납니다. 시간이 지남에 따라 바이트를 푸시하고 계산하여 대역폭을 직접 관찰하는 대신, 패킷 쌍 기술은 두 패킷 사이의 시간을 사용하여 메트릭을 간접적으로 계산하거나 추론합니다.

(네트워크) 측정 수명 주기

측정은 합리적인 예측으로 이어질 때 가장 강력합니다. 때때로 예측을 통해 Cloudflare가 배포되는 세계와 시스템에 대한 이해를 확인할 수 있습니다. 때로는 예측을 통해 새로운 것이 드러납니다. 어느 쪽이든, 예측 측정은 데이터를 큐레이션하고, 데이터를 기반으로 모델을 구성한 다음 (이상적으로는) 다른 데이터로 모델을 검증하는 간단한 패턴을 따라 나타납니다. 이러한 것들이 함께 측정 수명 주기를 생성합니다.

측정은 처음부터 끝까지 수명 주기를 포괄하는 것이 이상적이지만, 각 수명 주기를 단독으로 사용해도 아주 가치 있는 기여와 발전이 있을 수 있습니다. 고품질의 개별 데이터 세트는 큐레이션하기가 너무 어려우므로 각각 유효한 기여가 될 수 있습니다. 마찬가지로 모델링 기법이나 검증 도구를 사용할 수도 있습니다. 측정은 다양한 전문가의 영역에 걸쳐 이루어지며, 다양한 기술의 이점을 누립니다.

데이터 큐레이션부터 각 단계를 순서대로 살펴보겠습니다.

데이터 큐레이션

가장 일반적이고 친숙한 측정 작업( 종종 측정과 동의어)은 데이터 수집과 큐레이션입니다. 데이터는 그 자체로 매력적이고 유용할 수 있습니다. Cloudflare Radar 가 그 확실한 증거입니다! 많은 상황에서 간단한 숫자 세기는 우리가 맥락과 관련이 있고 맥락을 고려하여 환경을 배치하는 데 도움이 됩니다.

데이터 수집 및 큐레이션에는 모델링이나 검증보다 더 많은 에너지, 시간, 리소스가 소모됩니다. 이는 주기적인 측정 패턴에도 함축되어 있습니다. 검증하려면 선행 모델이 필요하고 데이터를 사용하여 모델이 구성됩니다. 데이터, 모델, 검증, 인사이트도, 예측, 학습도 없습니다. 주기 내 각 단계의 품질은 이전 단계의 품질에 달라집니다. 고품질의 데이터는 측정 관행의 핵심입니다. 대형 강체충돌기(Large Hardron Collider)와 James Webb Telescope는 고품질 데이터를 찾기 위해 끊임없이 노력하고 있으므로 우리가 얼마나 많은 노력을 할 수 있고, 또 얼마나 노력해야 하는지를 보여주는 훌륭한 사례입니다. 인터넷 측정 커뮤니티에 있는 이와 유사한 '상시 가동' 도구는 그다지 매력적이지 않지만, 그만큼 중요성도 덜합니다. CAIDA와 RIPE의 Atlas는 원격 측정을 수집하고 데이터 세트를 큐레이션하는 오래된 프로젝트의 두 가지 예에 불과합니다.

실수하지 마세요. 고품질 데이터 수집 및 큐레이션은 어렵습니다.

다행히 '높은 품질'이 완벽을 의미하지는 않습니다. 대표성을 지닙니다. 예를 들어, 거리나 시간을 계산하는 경우 정확도는 실제 값을 반영해야 합니다. 큰 모집단은 훨씬 적은 수의 샘플을 사용하여 합리적으로 연구할 수 있습니다. 예를 들어, 연결 변조에 대한 글로벌 평가에서는 1/10,000 (또는 0.0001%)의 샘플을 사용하여 귀중한 인사이트가 공개되었습니다. 고객이 매우 다양하기 때문에, 모든 종류의 콘텐츠와 목적에 대해 트래픽을 끌어들이는 이유 중 하나가 Cloudflare에서 샘플링율이 낮은 이유 중 하나입니다. 이번 주 후반, 저희는 Cloudflare의 요청 로그에서 약 180,000개의 캐리어급 NAT 샘플을 찾는 데 사용된 불완전한 신호가 직접 관찰할 수 없는 12,000,000개 이상의 다른 NAT를 식별하는 데 어떻게 "충분히" 식별 가능한지 블로그 게시물을 통해 공유할 예정입니다.

또 하나의 중요하고 직관적이지 않은 오해는 더 많은 데이터가 자연스럽게 더 많은 세부 사항과 더 많은 질문에 대한 답변을 보여준다는 것입니다. Ram Sundaran이 게스트 게시물에서 언급했듯이, 때로는 노이즈가 너무 많아 대규모 데이터 세트에서 답을 찾는 것이 작은 기적처럼 보일 수 있습니다.

모델링

모델은 개념적일 수 있으며, 환경 또는 시스템의 측면을 설명합니다. 가장 유용한 것은 Cloudflare가 이해한 내용이나 가정에 대한 간단한 진술로 표현할 수 있습니다. 사실상 검증할 수 있는 가설을 캡슐화하는 것입니다. 예를 들어, Cloudflare에서는 직접 경로가 더 길더라도 인터넷 서비스 공급자 또는 네트워크가 일반적으로 비용이 발생하는 전송 네트워크 경로보다 CDN에 대한 직접 무료 피어링 경로를 선호한다고 믿거나 가정할 수 있습니다. 이는 검증할 수 있는 모델을 형성합니다.

예측 모델은 이해의 경계를 넘어 명확하지 않거나 직접 관찰할 수 없거나 확인하기 어려운 시스템 측면을 식별, 설명, 이해하는 데 도움이 됩니다. 예측 모델은 예를 들어 기본 스토캐스틱 프로세스를 식별하거나 머신 러닝 분류기를 만드는 데 통계 기법을 사용하는 경우가 많습니다. 통계 도구는 큐레이션된 데이터 자체를 특성화하는 데 더 일반적으로 사용됩니다. 매우 강력한 모델은 평균, 중앙값, 분산, 신뢰 지표가 있는 단순한 확률 분포일 수 있습니다.

인터넷에서 많은 관심을 끌었던 한 가지 측면은 인터넷상의 네트워크가 다른 네트워크에 연결하는 방식이었습니다. 인터넷이 어떻게 형성되고 성장하는지 이해하는 것은 시뮬레이션에 아주 중요하지만, 어떤 네트워크가 실패할 수 있는지 예측하는 데에도 도움이 됩니다. 아래 왼쪽 방정식은 연결성 우선순위 또는 더 친숙한 용어로 "부자가 더 풍부해진다"는 초기 모델인 Barabási–Albert(BA) 모델에서 가져온 것입니다.

가장 간단한 버전에서 BA 모델의 새 네트워크는 기존 네트워크의 연결 수에 비례하는 확률로 기존 네트워크에 연결하기로 선택합니다. 후기 모델에서는 '지능형' 선택 메커니즘이 사라졌습니다. 아래 오른쪽 방정식은 우주에서 천체가 형성되는 방식과 유사한 보다 일반적인 메커니즘인 네트워크의 크기에 기초한 것입니다.

때로는 어떤 도구와 언제 사용해야 하는지 아는 것 자체가 기술입니다. 그러한 예 중 하나는 ML과 AI를 간단하고 훨씬 더 투명한 메커니즘으로 처리할 수 있는 문제에 적용하는 것입니다. 예를 들어, 이 게스트 블로그에서는 TCP가 엄격하게 지정되어 있으므로 비정상적인 TCP 동작을 이해하기 위해 ML은 배제되었다고 설명하며, 이는 다양한 패킷 시퀀스를 완전히 열거할 수 있음을 시사하고 정확성이 입증되었습니다.

도메인에 대한 이해는 정확한 모델을 구성하는 능력에 중요한 경우가 많습니다. 예를 들어, 머신 러닝은 비정형 대규모 데이터를 이해하는 데 유용한 도구이지만, 일부 도메인 전문 지식이 있으면 매우 강력할 수 있습니다. 이번 주 후반에 다중 사용자 IP의 감지에 관한 Cloudflare의 연구에서 그러한 예시 중 하나가 제공됩니다. 특히 CGNAT(캐리어급 NAT 장치)를 감지하려고 했습니다. VPN 및 프록시와 달리 사용자가 CGNAT 사용을 선택하지 않거나 그 존재를 인식하지 못하기 때문에 대규모 다중 사용자 IP 중에서는 독특합니다.

ML 모델은 다중 사용자 IP를 성공적으로 식별했지만, 명확성을 위한 CGNAT는 도메인 지식을 적용하기 전까지는 어려웠습니다. 예를 들어 CGNAT는 일반적으로 인접한 IP의 범위(예: /24 블록)에 배포되지만, 아래와 같이 모델에서 매우 중요한 기능으로 판명되었습니다.

검증용

검증 단계에서는 데이터와 비교하여 모델의 출력을 테스트하여 전체 측정 작업의 가치를 거의 단독으로 결정합니다. 모델이 예측을 하면 그 예측이 데이터에 반영됩니다. 검증 데이터와 예측이 대조되거나 충돌하면 모델에 결함이 있거나 엄선된 데이터로 인해 편향이 발생했음을 나타냅니다.

검증 과정에서는 주로 두 가지 방식 중 하나로 훌륭한 측정이 실패할 수 있습니다. 첫째, 초기 데이터 큐레이션 단계에서와 마찬가지로 검증 데이터가 모집단을 대표해야 합니다. 예를 들어, 주간의 트래픽에 대한 데이터를 큐레이션하고 해당 데이터로 모델을 구축한 다음 야간에 트래픽에 대한 데이터를 사용하여 검증하는 것은 실수일 수 있습니다. 또한 예를 들어 TCP에 대한 측정값을 검증하기 위해 QUIC 데이터를 사용하여 의미가 없습니다(측정값에 공통 속성이 있다는 가설이 아닌 한). 따라서 검증 데이터와 초기 데이터의 차이로 인해 측정이 손상되지 않도록 항상 주의해야 합니다.

또한 유효성 검사에서는 엄선된 데이터를 직접 사용할 때 오해의 소지가 있을 위험이 있습니다. 확실히 이 접근 방식은 데이터 세트 간의 차이를 완화합니다. 그러나 동일한 데이터로 검증할 때 끌어낼 수 있는 유일한 결론은, 데이터가 나타내는 것이 아니라 모델이 데이터를 합리적으로 설명한다는 것입니다. 예를 들어, 머신 러닝을 생각해 보세요. 머신 러닝의 핵심은 데이터를 큐레이션하고, 머신 러닝 알고리즘에 입력하여 모델을 구축한 다음, 데이터와 비교하여 출력을 검증하는 수명 주기를 거칩니다. 머신 러닝 커뮤니티의 초기 일반적인 관행은 단일 데이터 세트를 70%의 학습용과 30%의 검증용으로 분할하는 것이었습니다. 이는 보증되지 않고 오해의 소지가 있는 모델을 긍정적으로 평가할 가능성이 더 높아질 수 있는 설정입니다. 중요한 특성을 증폭하거나 생략하는 데이터세트로 학습된 ML 모델의 가장 좋은 사례는 이러한 편향을 반영하는 모델이며, 이는 알고리즘 편향의 잠재적 원인이 될 수 있습니다.

당연히 우리는 관련되지 않은 데이터로도 타당성이 입증되는 모델을 더 신뢰하게 됩니다. 검증 데이터셋은 서로 다른 출처에서 동일한 속성을 설명할 수 있습니다. 예를 들어, 수동 RTT 로그 데이터로부터 구축되고 능동 핑에 대해 검증된 모델들이 있습니다. 또는 모델 생성에서 무시된 분포 및 헤더 값의 연결 변조를 확인하는 등 완전히 다른 데이터 또는 신호를 사용하여 모델을 검증할 수도 있습니다.

네트워크 측정의 윤리

네트워크 측정에서 윤리의 중요성은 아무리 강조해도 지나치지 않습니다. 네트워크 측정을 위험이 없고 인간으로부터 제거되어 인간에게 거의 영향을 미치지 않는 것으로 인식하기 쉽습니다. 진실과는 거리가 먼 인식입니다. 앞서 설명한 속도 테스트와 대역폭 추정을 위한 패킷 쌍 기술을 기억해 보세요. 속도 테스트에서 행위자는 자신의 네트워크에 있을 수도 있고 없을 수도 있는 사용 가능한 병목 용량을 모두 소비하여 대역폭을 추정합니다. 리소스 소비 비용은 다른 사람이 부담할 수 있으며, 당연히 사용자의 네트워크가 가진 잠재적 성능은 저하됩니다. 이러한 유형의 대역폭 측정이 갖는 위험으로 인해 패킷 쌍 기술은 발신자와 수신자 사이에 약간의 오케스트레이션이 있기는 하지만, 몇 쌍의 패킷과 약간의 수학만으로 대역폭을 추론하는 방식을 사용하게 되었습니다.

네트워크 측정 모범 사례에서는 측정 작업을 수행하기 전에 위험과 영향을 면밀히 검토합니다. 부담스러워 보일 수 있지만, 윤리적 고려 사항이 창의성을 촉발하는 경우가 많으며, 덕분에 새로운 방법론이 등장합니다. JavaScript 인젝션에 대한 대안을 모색하면서 Cloudflare는 패시브 데이터를 사용하여 다른 CDN의 성능을 추정 하기로 했습니다. 자세한 내용은 The ACM 커뮤니케이션즈(2016년)에 실린 "Ethical reasons in network Measurement Papers "(2016년)를 참조하세요.

시각화 및 표현

시각화 및 표현은 측정 수명 주기의 모든 단계 에서 매우 중요합니다. 표현을 하면 최소한 이해도가 높아져야 합니다. 이상적으로는 후속 조치도 명확하게 합니다. 컨텍스트가 없는 진술은 좋지 않은 표현입니다. 예를 들어, "30%의 확률"은 많은 것처럼 들리지만 기준점이 없으면 가치가 없습니다.

이에 대한 한 가지 예는 Cloudflare의 "근접성 " 진술입니다.Cloudflare는 " 인터넷으로 연결된 전 세계 인구의 95%로부터 약 50ms"입니다. 이 진술은 당사 로그에 대한 “조사”를 요약한 것입니다: Cloudflare에 연결하는 각 IP 주소의 모든 연결 중에서 최소 RTT의 절반은 해당 IP 주소에서 Cloudflare까지의 지연 시간에 대한 “최악의 근사치”입니다. 95%의 경우에서 minRTT/2는 50ms 이하입니다.

한편, 시각화는 오해의 소지가 있는 결론에 도달할 정도로 강력할 수 있습니다. 이러한 개념은 이번 주 후반 라우팅 복원력 평가에 대한 블로그 게시물에서 두드러지게 나타났습니다. 이 주제에 대한 한 가지 예가 아래에 나와 있으며, 두 개의 막대 그래프는 각 주의 상호 연결 설비 수에 따라 미국 주를 큰 것에서 작은 것 순으로 나열합니다. 왼쪽에서, 상태가 원시 카운트 기능에 따라 정렬되어 있습니다. 1위인 주에는 140개 이상의 상호 연결 시설이 있습니다. 오른쪽에는 원시 카운트가 각 주의 인구로 정규화되었습니다(이 경우 인구로 나눈 값).

이러한 표현은 데이터를 평가하는 방법에 따라 모델이 형성되고 잘못될 수 있음을 보여줍니다. 이 경우 방해가 될 수 있으므로 x축의 상태 이름은 의도적으로 생략했습니다. 대신 오른쪽 그래프에서 인당 시설 중앙값을 초과(초록색) 또는 미만(노란색)으로 표시하기 위해 각 막대를 색상으로 표시합니다. 즉시 분명한 사실은 시설의 수가 가장 많은 두 주에서 중앙값 아래에 있다는 것입니다. 즉, 인당 시설비 기준으로 주의 하위 절반에 위치합니다.

때로는 시각화가 의심의 여지가 없을 정도로 강력할 수 있습니다. 아래 이미지는 데이터와 모델이 정확하다는 강력한 증거를 제공하므로 개인적으로 가장 좋아하는 이미지입니다. 이 시각화에서 각 열은 관찰된 단일 유형의 연결 이상을 나타냅니다. 각 열 안에서, 이상 현상의 발생이 연결이 시작된 국가로 비례적으로 나뉩니다. 가장 왼쪽 열에서 SYN→∅ 이상(일종의 제한 시간 초과)을 확인할 수 있습니다. 이를 통해 중국, 인도, 이란, 미국에서의 연결이 이 특정 이상 유형에서 압도적으로 많았음을 알 수 있습니다. 이러한 방식으로 시각화를 구성하면 데이터를 최우선으로 하여 설명, 기본 메커니즘, 위치에 대한 편향을 완화하는 데 도움이 되었습니다.

시각화는 이러한 방식으로 이상 상황을 구성함으로써 "장애가 예상된 행동인가?"라는 한 가지 질문에 즉시 답변했습니다. 인터넷에서 예상되었거나 정상이었다면 이상 징후는 큰 차이가 아니라 거의 비슷한 비율로 나타났을 것입니다. 시각화는 우리의 접근 방식과 직관을 강력하게 검증하는(유일한 것은 아님) 더 많은 조사의 가능성을 보여주는 결과였습니다.

다음은?

Cloudflare는 가용한(수동적인) 데이터를 사용하는 새롭고 참신한 방법에 대해 계속해서 깊이 생각하고 있으며, 아이디어를 환영합니다. 측정은 우리 모두가 의존하고, 소중하게 여기며, 좋아하는 인터넷을 이해하는 데 도움이 되며 커뮤니티 전반에 걸쳐 시행됩니다.

측정 분야에 대한 새로운 진입자를 권장하며, 이 블로그가 해당 분야에 대한 소개이자, Cloudflare나 다른 곳에서 게시된 측정 작업을 평가할 수 있는 지도가 되길 바랍니다.

Cloudflare 블로그