La ventaja de la IA de Google: la separación de los rastreadores es el único camino hacia una Internet justa

A principios de esta semana, la Autoridad de Competencia y Mercados (CMA) del Reino Unido inició una asesoría sobre un paquete de requisitos de conducta propuestos para Google. La asesoría invita a hacer comentarios sobre los requisitos propuestos antes de que la CMA imponga cualquier medida final. Estas nuevas reglas tienen como objetivo abordar la falta de opciones y transparencia que enfrentan los editores (en términos generales como "cualquier parte que hace que el contenido esté disponible en la web") sobre cómo Google utiliza la búsqueda para impulsar sus servicios y funciones de la IA generativa. Estas son las primeras asesorías sobre los requisitos de conducta lanzadas en el marco del régimen de competencia de los mercados digitales en el Reino Unido.

Recibimos con satisfacción el reconocimiento de la CMA de que los editores necesitan un trato más justo y creemos que las reglas propuestas son un paso en la dirección correcta. Los editores deben tener derecho a tener acceso a herramientas que les permitan controlar la inclusión de su contenido en los servicios de la IA generativa, y las empresas de IA deben tener igualdad de condiciones para competir.

Sin embargo, creemos que la CMA no ha ido lo suficientemente lejos y debería hacer más para proteger el sector creativo del Reino Unido y fomentar una competencia sana en el mercado de la IA generativa y agéntica.

Google designado como estado de mercado estratégico por parte de la CMA

En enero de 2025, el panorama normativo del Reino Unido experimentó un cambio legal significativo con la implementación de la Ley de Mercados Digitales, Competencia y Consumidores de 2024 (DMCC). En lugar de depender de las investigaciones antimonopolio para abordar los riesgos para la competencia, la CMA ahora puede designar empresas con estatus de mercado estratégico (SMS, por sus siglas en inglés) cuando tienen un poder de mercado sustancial y consolidado. Esta designación permite intervenciones específicas de la CMA en los mercados digitales, como la imposición de requisitos de conducta específicos, para mejorar la competencia.

En octubre de 2025, la CMA designó a Google como proveedor de SMS en búsquedas generales y publicidad de búsqueda, dada su participación del 90 % en el mercado de búsquedas en el Reino Unido. Fundamentalmente, esta designación abarca AI Overviews y AI Mode, y la CMA ahora tiene la autoridad para imponer requisitos de conducta en el ecosistema de búsqueda de Google. Los requisitos finales impuestos por la CMA no son meras sugerencias, sino reglas legalmente exigibles que pueden relacionarse específicamente con el rastreo de IA con sanciones significativas para garantizar que Google opere de manera justa.

Los editores necesitan una forma significativa de excluir el uso de su contenido por parte de Google para la IA generativa

La designación de la CMA no podría ser más oportuna. Como hemos mencionado antes, indiscutiblemente estamos en un momento en que la Internet necesita "reglas de actuación" claras para el comportamiento de rastreo de la IA.

Como afirma acertadamente la CMA, "los editores no tienen otra opción realista que permitir que su contenido sea rastreado para la búsqueda general de Google debido al poder de mercado que tiene Google en la búsqueda general". Sin embargo, Google actualmente utiliza ese contenido tanto en sus funciones de la IA generativa de búsqueda como en sus servicios más amplios de la IA generativa".

En otras palabras: el mismo contenido que Google extrae para la indexación de búsqueda también se utiliza con fines de inferencia y de conexión a tierra, como AI Overviews y AI Mode, que dependen de la obtención de información en directo de Internet en respuesta a las consultas de los usuarios en tiempo real. Y eso crea un gran problema para los editores y para la competencia.

Debido a que los editores no pueden permitirse el lujo de rechazar o bloquear Googlebot, el rastreador de búsqueda de Google, en su sitio web, tienen que aceptar que su contenido se utilizará en aplicaciones de IA generativa como AI Overviews y AI Mode dentro de la búsqueda de Google que regresan muy poco, si es que hay alguno, tráfico a sus sitios web. Esto afecta los modelos de negocio basados en anuncios que han sustentado la publicación digital durante décadas, dado el papel fundamental de la Búsqueda de Google para dirigir el tráfico humano a la publicidad en línea. También significa que las aplicaciones de IA generativa de Google entran en competencia directa con los editores al reproducir su contenido, la mayoría de las veces sin atribución ni compensación.

La resistencia de los editores a bloquear a Google debido a su dominio en las búsquedas le da a Google una ventaja competitiva injusta en el mercado de la IA generativa y agéntica. A diferencia de otros operadores de bots de IA, Google puede utilizar su rastreador de búsqueda para recopilar datos para una variedad de funciones de IA sin temor a que se restrinja su acceso. Tiene un incentivo mínimo para pagar a los editores por esos datos, que ya obtiene de forma gratuita.

Esto impide la aparición de un mercado que funcione bien en el que los desarrolladores de IA negocien el valor justo por el contenido. En cambio, otras empresas de IA no tienen incentivos para sentarse a la mesa, ya que están estructuralmente en desventaja por un sistema que permite que un jugador dominante evada por completo la compensación. Como la propia CMA reconoce, "[a]l no proporcionar suficiente control sobre cómo se utiliza este contenido, Google puede limitar la capacidad de los editores de monetizar su contenido, mientras accede al contenido para obtener resultados generados por la IA de una manera que sus competidores no pueden igualar”.

La ventaja de Google

Los datos de Cloudflare validan la preocupación sobre la ventaja competitiva de Google. Según nuestros datos, Googlebot ve significativamente más contenido de Internet que sus pares más cercanos.

Durante un período observado de dos meses, Googlebot accedió con éxito a páginas individuales casi dos veces más que ClaudeBot y GPTBot, tres veces más que Meta-ExternalAgent y más de tres veces que Bingbot. La diferencia fue aún más extrema para otros rastreadores de IA conocidos: por ejemplo, Googlebot vio 167 veces más páginas únicas que PerplexityBot. De las URL únicas analizadas que utilizan nuestra red y que observamos en los últimos dos meses, Googlebot rastreó aproximadamente el 8 %.

En términos múltiples redondeados, Googlebot ve:

vs. ~1,70 veces la cantidad de URL únicas vistas por ClaudeBot;
vs. ~1,76 veces la cantidad de URL únicas vistas por GPTBot;
vs. ~2,99 veces la cantidad de URL únicas vistas por Meta-ExternalAgent;
vs. ~3,26 veces la cantidad de URL únicas vistas por Bingbot;
vs. ~5,09 veces la cantidad de URL únicas vistas por Amazonbot.
vs. ~14,87 veces la cantidad de URL únicas vistas por Applebot;
vs. ~23,73 veces la cantidad de URL únicas vistas por Bytespider;
vs. ~166,98 veces la cantidad de URL únicas vistas por PerplexityBot;
vs. ~714,48 veces la cantidad de URL únicas vistas por CCBot; y
vs. ~1801,97 veces la cantidad de URL únicas vistas por archive.org_bot.

Googlebot también se destaca en otros conjuntos de datos de Cloudflare.

Aunque se clasifica como el bot más activo por tráfico general, es mucho menos probable que los editores rechacen o bloqueen Googlebot en su archivo robots.txt en comparación con otros rastreadores. Esto probablemente se deba a su importancia para dirigir el tráfico humano a su contenido y, como resultado, los ingresos publicitarios, a través de la búsqueda.

Como se muestra a continuación, casi ningún sitio web rechaza explícitamente el Googlebot de doble propósito en su totalidad, lo que refleja la importancia de este bot para generar tráfico a través de referencias de búsqueda. (Es importante tener en cuenta que los rechazos parciales suelen afectar ciertas partes de un sitio web que son irrelevantes para la optimización del motor de búsqueda o SEO, como los puntos finales de inicio de sesión).

Robots.txt simplemente permite la expresión de preferencias de rastreo; no es un mecanismo de aplicación. Los editores confían en "buenos bots" para cumplir con la norma. Para gestionar el acceso de los rastreadores a sus sitios de forma más eficaz, e independientemente del cumplimiento normativo de un bot determinado, los editores pueden configurar un Firewall de aplicaciones web (WAF, por sus siglas en inglés) con reglas específicas, que impidan técnicamente el acceso de rastreadores no deseados a sus sitios. Con la misma lógica del archivo robots.txt anterior, esperaríamos que los sitios web bloquearan principalmente otros rastreadores de IA, pero no Googlebot.

De hecho, al comparar los números de clientes que utilizan AI Crawl Control, la propia herramienta de bloqueo de rastreadores de IA de Cloudflare que está integrada en nuestro paquete de seguridad de aplicaciones, entre julio de 2025 y enero de 2026, se puede ver que la cantidad de sitios web que bloquean activamente otros rastreadores de IA conocidos (por ejemplo, GPTBot, Claudebot), fue casi 7 veces mayor que el número de sitios web que bloquearon Googlebot y Bingbot. (Al igual que Googlebot, Bingbot combina la búsqueda y el rastreo de IA y dirige el tráfico a estos sitios, pero dada su pequeña cuota de mercado en búsquedas, su impacto es menos significativo).

Estamos de acuerdo con la CMA en el planteamiento del problema. Pero, ¿cómo se puede permitir que los editores dejen de usar su contenido para sus aplicaciones de la IA generativa? Compartimos la conclusión de la CMA de que "para poder tomar decisiones significativas sobre cómo Google utiliza su contenido de búsqueda, (...) los editores deben tener la capacidad de excluir de manera efectiva su contenido de búsqueda tanto de las funciones de la IA generativa de búsqueda de Google como de los servicios de la IA generativa".

Pero nos preocupa que la propuesta de la CMA sea insuficiente.

Requisitos de conducta de los editores propuestos por la CMA

El 28 de enero de 2026, la CMA publicó cuatro conjuntos de requisitos de conducta propuestos para Google, incluidos los requisitos de conducta relacionados con los editores. Según la CMA, las reglas propuestas para los editores están diseñadas para abordar las preocupaciones de que los editores (1) no tienen suficientes opciones sobre cómo Google utiliza su contenido en sus respuestas generadas por IA, (2) tienen una transparencia limitada sobre el uso de ese contenido por parte de Google, y (3) no obtienen un reconocimiento efectivo por el uso de su contenido por parte de Google. La CMA reconoció la importancia de estas preocupaciones debido al papel que desempeña la búsqueda de Google en la búsqueda de contenido en línea.

Los requisitos de conducta obligarían a Google a otorgar a los editores "un control significativo y efectivo" sobre si su contenido se utiliza para funciones de IA, como AI Overviews. Google tendría prohibido tomar cualquier medida que afecte negativamente la eficacia de esas opciones de control, como degradar intencionalmente el contenido en la búsqueda.

Para respaldar una toma de decisiones informada, la propuesta de CMA también exige que Google aumente la transparencia, mediante la publicación de documentación clara sobre cómo utiliza el contenido rastreado para la IA generativa y sobre qué cubren exactamente sus diversos controles de editor en la práctica. Por último, la propuesta exigiría a Google que garantice una atribución eficaz del contenido del editor y que proporcione a los editores datos de participación detallados y desglosados, incluidas las métricas específicas de impresiones, clics y "calidad de clics", para favorecer la evaluación del valor comercial de permitir que su contenido sea utilizado en resúmenes de búsqueda generados por IA.

Las soluciones propuestas por la CMA son insuficientes

Aunque apoyamos los esfuerzos de la CMA para mejorar las opciones para los editores, nos preocupa que los requisitos propuestos no resuelvan el problema subyacente de promover una elección justa y transparente sobre cómo Google utiliza su contenido. En la práctica, los editores se ven obligados a utilizar los mecanismos de exclusión voluntaria de Google, vinculados específicamente a la plataforma de Google y bajo las condiciones establecidas por Google, en lugar de otorgarles un control directo y autónomo. Un marco en el que la plataforma dicta las reglas, gestiona los controles técnicos y define el ámbito de aplicación no ofrece un "control efectivo" a los creadores de contenido ni fomenta la innovación competitiva en el mercado. En cambio, refuerza un estado de dependencia permanente.

Este marco también reduce las opciones de los editores. La creación de nuevos controles de exclusión hace que sea imposible que los editores elijan utilizar herramientas externas para bloquear el acceso de Googlebot a su contenido sin poner en riesgo su aparición en los resultados de búsqueda. En cambio, según la propuesta actual, los creadores de contenido seguirán teniendo que permitir que Googlebot extraiga sus sitios web, sin mecanismos de aplicación para implementar y con una visibilidad limitada disponible si Google no respeta sus preferencias señaladas. La aplicación de estos requisitos por parte de la CMA, si se hace correctamente, será muy costosa y no garantiza que los editores confíen en la solución.

De hecho, Cloudflare ha recibido comentarios de sus clientes de que los actuales mecanismos de exclusión voluntaria de Google, incluidos Google-Extended y "nosnippet", no lograron evitar que el contenido se utilice de formas que los editores no pueden controlar. Estas herramientas de exclusión voluntaria tampoco habilitan mecanismos de compensación justa para los editores.

En términos más generales, como se refleja en nuestros principios propuestos para bots de IA responsables, creemos que todos los bots de IA deben tener un propósito distinto y declararlo, para que los propietarios de sitios web puedan tomar decisiones claras sobre quién puede acceder a su contenido y por qué. A diferencia de sus principales competidores, como OpenAI y Anthropic, Google no cumple con este principio para Googlebot, que se utiliza para múltiples propósitos (indexación de búsqueda, entrenamiento de IA e inferencia y fundamentación). El simple hecho de exigir a Google que desarrolle un nuevo mecanismo de exclusión no permitiría a los editores lograr un control significativo sobre el uso de su contenido.

La forma más eficaz de dar a los editores ese control necesario es exigir que Googlebot se divida en rastreadores independientes. De esa manera, los editores podrían permitir el rastreo para la indexación de búsqueda tradicional, que necesitan para atraer tráfico a sus sitios, pero bloquear el acceso para el uso no deseado de su contenido en servicios y funciones de la IA generativa.

Exigir la separación de los rastreadores es la única solución eficaz

Para garantizar un ecosistema digital justo, la CMA debe empoderar a los propietarios de contenido para que impidan que Google acceda a sus datos para fines particulares en primer lugar, para no depender de las soluciones alternativas administradas por Google después de que el rastreador ya haya accedido al contenido para otros fines. Ese enfoque también permite a los creadores establecer condiciones para acceder a su contenido.

Aunque la CMA describió la separación de los rastreadores como una "intervención igualmente eficaz", finalmente rechazó exigir la separación basándose en la información de Google de que sería demasiado costosa. No estamos de acuerdo.

Exigir a Google que divida Googlebot según el propósito, al igual que Google ya hace con sus casi 20 rastreadores más, no solo es técnicamente factible, sino también una solución necesaria y proporcionada que permite a los operadores de sitios web tener el control detallado del que carecen actualmente, sin aumentar la carga de tráfico de los rastreadores a sus sitios web (y, de hecho, tal vez incluso disminuyéndolo, en caso de que decidan bloquear el rastreo de la IA).

Para ser claros, una solución de separación del rastreador beneficia a las empresas de IA, ya que nivela el campo de juego entre ellas y Google, además de dar a los editores con sede en el Reino Unido más control sobre su contenido. (Daily Mail Group, The Guardian y News Media Association han recibido un amplio apoyo público a la medida de separación de rastreadores). La separación obligatoria de los rastreadores no es una desventaja para Google, ni afecta la inversión en IA. Por el contrario, es una medida favorable a la competencia que evita que Google aproveche su monopolio de búsqueda para obtener una ventaja injusta en el mercado de la IA. Al desvincular estas funciones, nos aseguramos de que el desarrollo de la IA esté impulsado por la competencia justa del mercado y no por la explotación del dominio de un único hiperescalador.

******

El Reino Unido tiene una oportunidad única de liderar el mundo en la protección del valor del contenido original y de alta calidad en Internet. Sin embargo, nos preocupa que las propuestas actuales sean insuficientes. Recomendamos reglas que garanticen que Google opera en las mismas condiciones de acceso al contenido que otros desarrolladores de IA, lo que devuelve significativamente la autonomía a los editores y prepara el camino para nuevos modelos comerciales que promuevan la monetización de contenido.

Cloudflare mantiene su compromiso de colaborar con la CMA y otros socios durante las próximas asesorías para proporcionar datos basados en evidencia que ayuden a tomar una decisión final sobre los requisitos de conducta que sean específicos, proporcionales y efectivos. La CMA aún tiene la oportunidad de garantizar que Internet se convierta en un mercado justo para los creadores de contenido y los actores de IA más pequeños, no solo para unos pocos gigantes tecnológicos seleccionados.

El blog de Cloudflare

La ventaja de la IA de Google: la separación de los rastreadores es el único camino hacia una Internet justa

Google designado como estado de mercado estratégico por parte de la CMA

Los editores necesitan una forma significativa de excluir el uso de su contenido por parte de Google para la IA generativa

La ventaja de Google

Requisitos de conducta de los editores propuestos por la CMA

Las soluciones propuestas por la CMA son insuficientes

Exigir la separación de los rastreadores es la única solución eficaz

Cloudflare Client-Side Security: smarter detection, now open to everyone

Sandboxing AI agents, 100x faster

Powering the agents: Workers AI now runs large models, starting with Kimi K2.5

Standing up for the open Internet: why we appealed Italy’s "Piracy Shield" fine