IA distribuida a nivel global y actualización de Constellation

Durante la Developer Week 2023 de Cloudflare, anunciamos Constellation, un conjunto de API que permiten que todos ejecuten tareas de inferencia rápidas y de baja latencia mediante modelos de IA/aprendizaje automático ya entrenados, directamente en la red de Cloudflare.

Globally distributed AI and a Constellation update

Actualización de Constellation

Actualmente, tenemos miles de cuentas incorporadas en la versión beta privada de Constellation y hemos escuchado los comentarios de nuestros clientes para evolucionar y mejorar la plataforma. Hoy, un mes después del anuncio, actualizamos Constellation con tres nuevas funciones:

Modelos más grandesAumentamos el límite de tamaño de los modelos de 10 MB a 50 MB. Aunque sea un tanto conservador en la versión beta privada, este nuevo límite abre las puertas a modelos optimizados y ya entrenados para utilizar con Constellation.

Almacenamiento de tensores en cachéCuando ejecutas una tarea de inferencia de Constellation, pasas varios objetos de tensores como entradas, lo que a veces genera cargas de macrodatos. Estas entradas se trasladan por el protocolo de red hacia atrás y hacia adelante cuando se repite la misma tarea, incluso cuando los cambios de entradas durante varias ejecuciones son mínimos, lo que genera una sobrecarga innecesaria de análisis de red y datos.

La API del cliente ya tiene habilitado el almacenamiento de tensores de entrada en caché, lo que permite una latencia de red aún mejor y tiempos de inferencia más rápidos.

Programa de ejecución XGBoostConstellation comenzó con el programa de ejecución ONNX, pero nuestra visión es que se puedan utilizar varios programas de ejecución bajo una misma API. Hoy, hemos agregado el programa de ejecución XGBoost a la lista.

XGBoost es una biblioteca optimizada de aumento de gradiente distribuida que se ha diseñado para que sea altamente eficiente, flexible y portátil; además, tiene fama por su rendimiento en tareas de datos tabulares y estructurados.

Puedes empezar a cargar y usar modelos de XGBoost hoy mismo.

Para ver la información actualizada con estas nuevas funciones y un ejemplo sobre cómo usar el programa de ejecución XGBoost con Constellation, consulta nuestra documentación para desarrolladores.

La era de la IA distribuida a nivel global

Debido a que la red de Cloudflare es de distribución global, Constellation es nuestro primer lanzamiento público del aprendizaje automático distribuido a nivel global.

¿Pero qué significa esto? Uno podría pensar que una red global no es un lugar donde se pueden desplegar tareas de aprendizaje automático, sin embargo, este tipo de aprendizaje ha sido una parte fundamental de lo que ha facilitado muchas de las funcionalidades básicas de Cloudflare durante varios años. Y funciona en toda nuestra red global en 300 ciudades.

Este impresionante aumento en el tráfico, ¿es un ataque o una oferta de Black Friday? ¿Cuál va a ser la mejor manera de direccionar esta solicitud según los patrones de tráfico actuales? Esta solicitud, ¿proviene de un ser humano o de un bot? Este tráfico HTTP, ¿es un zero-day? Poder responder estas preguntas con el aprendizaje automático y la IA, sin intervención humana, es una de las cualidades que ha hecho que Cloudflare pudiera dar un paso adelante.

Pero esto no es más que un mero ejemplo de lo que el aprendizaje automático distribuido a nivel global puede lograr. Para nosotros, esto ha sido muy útil porque hemos podido ejecutar este aprendizaje automático como una parte integrada de nuestra pila, y es por eso que ahora estamos en proceso de ponerlo a disposición de cada vez más desarrolladores a través de Constellation.

Como le gusta decir a Michelle Zatlyn, nuestra cofundadora, esto es solo el principio (en este espacio) —todos los días añadimos cientos de nuevos usuarios a Constellation versión beta, probando y desplegando a nivel global nuevos modelos, y más aún, desplegando nuevos hardware compatibles con los nuevos tipos de cargas de trabajo que la IA acercará a nuestra red global.

Dicho esto, queríamos hacer unos anuncios y compartir algunos casos de uso que ayudan a demostrar por qué estamos tan entusiasmados por la IA distribuida a nivel global. Como estamos en la Speed Week, no debería sorprendernos que la velocidad esté en el centro de atención.

Experiencias web personalizadas, potenciadas por la IA

Por mucho tiempo hemos sabido cuán importante es el rendimiento a la hora de brindar experiencias web; en el comercio electrónico, cada segundo del tiempo de carga de una página puede tener una tasa de hasta el 7% de abandono durante la conversión. Pero la velocidad no lo es todo. Es necesaria, pero no suficiente. También hay que tener precisión.

Es decir, en lugar de tener un tipo de experiencia igual para todo el mundo, los usuarios esperan que tú sepas lo que quieren antes de que ellos mismos lo sepan.

Por eso, debes facilitar experiencias personalizadas, y tienes que hacerlo rápido. Aquí es donde Constellation puede entrar en juego. Con Constellation, una parte de la aplicación de comercio electrónico que ya puede ofrecer la red de Cloudflare a través de Workers o Pages, o que incluso puede almacenar datos en D1, ahora puedes realizar tareas, como categorización (¿cuál es la demografía más probable de este usuario?) y personalización (si compraste esto, quizás también te interese esto otro).

Dispositivos más inteligentes, estén donde estén

Otro caso de uso donde el rendimiento es fundamental es la interacción con el mundo real. Imagina un sistema de reconocimiento facial que detecte si eres o no un humano cada vez que entras a tu casa. Cada segundo de latencia es importante (especialmente si tienes mercadería pesada en las manos).

Teniendo en cuenta la ejecución de inferencia en la red de Cloudflare, hasta el 95% de la población mundial utiliza procesos informáticos, por lo que una decisión nunca va a estar a más de 50 ms de distancia. Esto se diferencia ampliamente del proceso centralizado, en el que si vives en Europa, pero compras un timbre para puerta a una empresa ubicada en los EE. UU., puedes estar a cientos de milisegundos de viaje de ida y vuelta de distancia.

Seguro estarás preguntando, ¿entonces por qué no ejecutar el proceso en el dispositivo?

Para empezar, la ejecución de inferencia en un dispositivo no garantiza rapidez en el rendimiento. La mayoría de los dispositivos con inteligencia integrada se ejecutan en microcontroladores, a menudo, con capacidades informáticas limitadas (sin GPU de alta gama o CPU de grado servidor). Los milisegundos se convierten en segundos; dependiendo del volumen de carga de trabajo que tengas que procesar, la inferencia local podría no ser la adecuada. El proceso que podría ser adecuado para los dispositivos no es lo suficientemente potente para operaciones complejas de alto volumen y, sin dudas, tampoco es apto para operar a una baja latencia.

Pero quitando la experiencia del usuario (algunos dispositivos no interactúan con el usuario directamente), no existen otros inconvenientes para ejecutar el proceso directamente en los dispositivos.

Lo primero es la duración de la batería, ya que cuanto más largo sea el proceso, más corta será la duración de la batería. Siempre hay un límite de consumo de energía, aunque tengas un chip ASIC personalizado o una unidad de procesamiento de tensores (TPU), lo que resulta en una menor duración de la batería, si esa es una de tus limitaciones. En el caso de productos de consumo, esto significa tener que cambiar la batería del timbre para puerta (para que no te quedes fuera de casa). Y para operar varios dispositivos a gran escala (como dispositivos de riego en un campo), esto puede generar costos para mantener el nivel de las baterías e intercambiarlas.

Por último, el hardware de los dispositivos, e incluso los softwares, son más difíciles de actualizar. A medida que surgen nuevas tecnologías o chips más eficientes, la mejora de cientos o miles de dispositivos puede resultar difícil. Y aunque las actualizaciones de software puedan ser más fáciles de manejar, nunca serán tan fáciles como actualizar un software basado en la nube, ¡donde puedes enviar actualizaciones sin esfuerzos varias veces al día!

Y hablando de enviar software…

Aplicaciones de IA, más fáciles que nunca con Constellation

La Speed Week no solo ayuda a que tus aplicaciones o dispositivos sean más rápidos, ¡sino también que sean parte de tu equipo!

En los últimos seis años, nuestra plataforma para desarrolladores les ha facilitado a estos profesionales el envío de nuevos códigos mediante Cloudflare Workers. Con Constellation, ahora es muy fácil agregar aprendizaje automático a tu aplicación actual, con tan solo algunos comandos.

Si no nos crees, compruébalo por ti mismo. Nos encontramos en proceso de habilitar la versión beta para cada vez más usuarios. Para solicitar acceso, ve al panel de control de Cloudflare, donde verás una nueva pestaña para Constellation. Te recomendamos que veas nuestro tutorial para empezar. ¡Esta IA puede ser aún más fácil de lo que esperabas!

Esto es solo el principio

Esto es tan solo el principio de nuestro camino para ayudar a los desarrolladores a crear aplicaciones impulsadas por IA, y ya estamos pensando en lo que sigue después.

Estamos ansiosos por ver todo lo que puedes crear, y tus comentarios serán bienvenidos.

Blog de Cloudflare

IA distribuida a nivel global y actualización de Constellation

Actualización de Constellation

La era de la IA distribuida a nivel global

Experiencias web personalizadas, potenciadas por la IA

Dispositivos más inteligentes, estén donde estén

Aplicaciones de IA, más fáciles que nunca con Constellation

Esto es solo el principio

Sandboxing AI agents, 100x faster

Powering the agents: Workers AI now runs large models, starting with Kimi K2.5

Slashing agent token costs by 98% with RFC 9457-compliant error responses

AI Security for Apps ya está disponible para todos