Cloudflare utiliza la mayor colección de datos de rendimiento del mundo para acelerar aún más la red global más rápida del mundo

Cloudflare opera la red más rápida del planeta. Hoy hemos compartido una actualización sobre cómo estamos renovando la tecnología de software que acelera cada servidor de nuestra flota, para mejorar la velocidad a nivel global.

Sin embargo, ahí no es donde termina el trabajo. Para mejorar aún más la velocidad, también debemos asegurarnos de que nuestra red maneje con rapidez la congestión a escala de Internet que la afecta todos los días, y enruta el tráfico a nuestros servidores, que ahora son más rápidos.

Llevamos años invirtiendo en el control de la congestión. Hoy nos complace compartir nuestro enfoque de una superpotencia de nuestra red, nuestra enorme base de usuarios del plan gratuito, para optimizar el rendimiento y encontrar la mejor manera de enrutar el tráfico a través de nuestra red para todos nuestros clientes a nivel global.

Los primeros resultados muestran aumentos de rendimiento que, en promedio, son un 10 % más rápidos que el punto de referencia anterior. Lo logramos mediante la aplicación de diferentes métodos algorítmicos para mejorar el rendimiento en función de los datos que observamos en Internet todos los días. Estamos encantados de empezar a implementar estas mejoras para todos los clientes.

¿Cómo llega el tráfico a nuestra red?

Internet es un conjunto masivo de redes interconectadas, cada una de ellas compuesta por muchas máquinas ("nodos"). Los datos se transmiten dividiéndolos en pequeños paquetes y pasándolos de una máquina a otra (a través de un "enlace"). Cada una de estas máquinas está conectada a muchas otras, y cada enlace tiene una capacidad limitada.

Cuando enviamos un paquete por Internet, viajará en una serie de "saltos" por los enlaces del punto A al punto B. En un momento dado, habrá un enlace (un "salto") con la menor capacidad disponible para esa ruta. No importa en qué parte de la conexión esté este salto, será el cuello de botella.

Pero hay un desafío: cuando envías datos a través de Internet, no sabes qué ruta van a tomar. De hecho, cada nodo decide por sí mismo a través de qué ruta enviar el tráfico, y diferentes paquetes que van del punto A al punto B pueden tomar rutas completamente diferentes. La naturaleza dinámica y descentralizada del sistema es lo que hace que Internet sea tan eficaz, pero también hace que sea muy difícil calcular cuántos datos se pueden enviar. Entonces, ¿cómo puede un remitente saber dónde está el cuello de botella y a qué velocidad enviar los datos?

Entre los nodos de Cloudflare, nuestro producto Argo Smart Routing utiliza nuestra visibilidad en la red global para acelerar la comunicación. Del mismo modo, cuando iniciamos conexiones con los orígenes de los clientes, podemos utilizar Argo y otros conocimientos para optimizarlas. Sin embargo, la velocidad de una conexión desde tu teléfono o computadora portátil (el Cliente a continuación) hasta el centro de datos de Cloudflare más cercano dependerá de la capacidad del salto de cuello de botella en la cadena desde tu punto hasta Cloudflare, que se produce fuera de nuestra red.

¿Qué ocurre cuando llegan demasiados datos a la vez?

Si llegan demasiados datos a cualquier nodo de una red en la ruta de una solicitud que se está procesando, el solicitante experimentará retrasos debido a la congestión. Los datos se pondrán en cola durante un tiempo (con el riesgo de saturación del búfer), o algunos de ellos simplemente se perderán. Los protocolos como TCP y QUIC responden a los paquetes que se descartan retransmitiendo los datos, pero esto introduce un retraso e incluso puede empeorar el problema al sobrecargar aún más la capacidad limitada.

Si los proveedores de infraestructura en la nube, como Cloudflare, no gestionan con cuidado la congestión, corremos el riesgo de sobrecargar el sistema y disminuir la velocidad de transferencia de datos. Esto realmente sucedió en los primeros días de Internet. Para evitar esto, la comunidad de infraestructura de Internet ha desarrollado sistemas para controlar la congestión, que dan a todos un turno para enviar sus datos, sin sobrecargar la red. Este es un desafío en evolución, ya que la red se vuelve cada vez más complicada, y el mejor método para implementar el control de la congestión es una búsqueda constante. Se han desarrollado muchos algoritmos diferentes, que toman diferentes fuentes de información y señales, se optimizan con un método particular y responden a la congestión de diferentes maneras.

Los algoritmos de control de congestión utilizan una serie de señales para estimar la velocidad correcta para enviar el tráfico, sin saber cómo está configurada la red. Una señal importante ha sido la pérdida. Cuando se recibe un paquete, el receptor envía un “ACK”, que indica al remitente que el paquete ha pasado. Si se deja caer en algún lugar del camino, el remitente nunca recibe la confirmación, y después de un tiempo de espera tratará el paquete como si se hubiera perdido.

Los algoritmos más recientes han utilizado datos adicionales. Por ejemplo, un algoritmo conocido como BBR (Bottleneck Bandwidth and Round-trip propagation time), que hemos estado utilizando para gran parte de nuestro tráfico, intenta crear un modelo durante cada conexión de la cantidad máxima de datos que se puede transmitir en un determinado periodo de tiempo, utilizando estimaciones del tiempo de ida y vuelta, así como información de las pérdidas.

El mejor algoritmo a utilizar suele depender de la carga de trabajo. Por ejemplo, en el caso del tráfico interactivo, como una videollamada, un algoritmo que tiende a enviar demasiado tráfico puede generar colas, lo que genera una alta latencia y una mala experiencia de video. Sin embargo, si se optimizara únicamente para ese caso de uso y se evitara enviando menos tráfico, la red no haría el mejor uso de la conexión para los clientes que realizan descargas masivas. El resultado de la optimización del rendimiento varía en función de muchos factores diferentes. Pero, ¡tenemos visibilidad de muchos de ellos!

El BBR fue un avance apasionante en el enfoque de control de congestión, que pasó de enfoques reactivos basados en pérdidas a una optimización proactiva basada en modelos, lo que dio como resultado un rendimiento significativamente mejor para las redes modernas. Nuestros datos nos dan la oportunidad de ir más allá, aplicando diferentes métodos algorítmicos para mejorar el rendimiento.

¿Cómo podemos hacerlo mejor?

Todos los algoritmos existentes están obligados a utilizar solo la información recopilada durante la vida útil de la conexión actual. Afortunadamente, sabemos mucho más sobre la Internet en un momento dado que esto. Con la perspectiva de Cloudflare sobre el tráfico, vemos mucho más de lo que cualquier cliente o proveedor de servicios de Internet podría ver en un momento dado.

Todos los días, vemos tráfico de prácticamente todas las redes principales del planeta. Cuando llega una solicitud a nuestro sistema, sabemos con qué dispositivo del cliente estamos hablando, qué tipo de red está permitiendo la conexión y si estamos hablando con proveedores de servicios de Internet (ISP) o proveedores de infraestructura en la nube.

Conocemos los patrones de carga a través de una Internet global y las ubicaciones donde creemos que los sistemas están sobrecargados, dentro de nuestra red o externamente. Conocemos las redes que tienen propiedades estables, que tienen una alta pérdida de paquetes debido a las conexiones de datos móviles, y las que atraviesan enlaces satelitales de órbita terrestre baja y cambian radicalmente sus rutas cada 15 segundos.

¿Cómo funciona esto?

Hemos estado en el proceso de migrar nuestra pila de tecnología de red para utilizar una nueva plataforma, impulsada por Rust, que brinda más flexibilidad para experimentar con la variación de parámetros en los algoritmos utilizados para manejar el control de la congestión. Luego necesitábamos los datos.

Los datos que impulsan estos experimentos deben reflejar la medida que estamos tratando de optimizar, que es la experiencia del usuario. No basta con que estemos enviando datos a casi todas las redes del planeta; tenemos que ser capaces de ver la experiencia que tienen los clientes. Entonces, ¿cómo hacemos eso, a nuestra escala?

En primer lugar, tenemos registros "pasivos" detallados de la velocidad a la que se pueden enviar los datos desde nuestra red, y el tiempo que tarda el destino en confirmar. Esto cubre todo nuestro tráfico, y nos da una idea de la rapidez con la que el cliente recibió los datos, pero no garantiza que nos informe sobre la experiencia del usuario.

A continuación, tenemos un sistema para recopilar datos de mediciones de usuarios reales (RUM), que registra información en los navegadores web compatibles sobre métricas como el tiempo de carga de la página (PLT). Cualquier cliente de Cloudflare puede habilitar esto y recibirá información detallada en su panel de control. Además, utilizamos estos metadatos en conjunto en todos nuestros clientes y redes para comprender lo que realmente están experimentando los clientes.

Sin embargo, los datos RUM solo estarán presentes en una pequeña proporción de las conexiones en nuestra red. Por lo tanto, hemos estado trabajando para encontrar una manera de predecir las medidas de RUM mediante la extrapolación de los datos que vemos solo en los registros pasivos. Por ejemplo, estos son los resultados de un experimento que realizamos mediante la comparación de dos algoritmos diferentes con la línea de base cúbica.

Ahora, aquí está la misma escala de tiempo observada a través de la predicción basada en nuestros registros pasivos. Las curvas son muy similares, pero lo que es más importante, la relación entre las curvas es muy similar. ¡Esto es increíble! Podemos usar una cantidad relativamente pequeña de datos RUM para validar nuestros hallazgos, pero optimizar nuestra red de una manera mucho más detallada mediante el uso del flujo completo de nuestros registros pasivos.

Extrapolar demasiado se vuelve poco fiable, por lo que también estamos trabajando con algunos de nuestros clientes más importantes para mejorar nuestra visibilidad del comportamiento de la red desde el punto de vista de sus clientes, lo que nos permite ampliar aún más este modelo predictivo. A cambio, podremos ofrecer a nuestros clientes información sobre la verdadera experiencia de sus clientes, de una manera que ninguna otra plataforma puede ofrecer.

¿Y ahora qué?

Actualmente, estamos ejecutando nuestros experimentos y algoritmos mejorados para el control de la congestión en todo nuestro tráfico QUIC de nivel gratuito. A medida que obtengamos más información, verifiquemos con clientes más complejos y nos expandamos al tráfico TCP, lo implementaremos de forma gradual para todos nuestros clientes, para todo el tráfico, durante 2026 en adelante. Los resultados han llevado a una mejora de hasta ¡un 10 % en comparación con la referencia!

Estamos trabajando con un grupo selecto de empresas para probar esto en un programa de acceso anticipado. Si te interesa saber más, contáctanos.

El blog de Cloudflare

Cloudflare utiliza la mayor colección de datos de rendimiento del mundo para acelerar aún más la red global más rápida del mundo

¿Cómo llega el tráfico a nuestra red?

¿Qué ocurre cuando llegan demasiados datos a la vez?

¿Cómo podemos hacerlo mejor?

¿Cómo funciona esto?

¿Y ahora qué?

Introducing Precursor: detecting agentic behavior with continuous client-side signals

Hacer más inteligente la búsqueda con IA

Tu sitio, tus reglas: nuevas opciones de tráfico basadas en IA para todos los clientes

Día de la Independencia del Contenido: un año después, construyendo el modelo de negocio para la Internet agéntica