Suscríbete para recibir notificaciones de nuevas publicaciones:

De Googlebot a GPTBot: quién rastrea tu sitio en 2025

2025-07-01

9 min de lectura
Esta publicación también está disponible en English, 日本語, Português y 简体中文.

Los rastreadores web no son nuevos. El World Wide Web Wanderer debutó en 1993, aunque los primeros motores de búsqueda web que realmente utilizaron rastreadores e indexadores fueron JumpStation y WebCrawler. Los rastreadores son parte de uno de los pilares del éxito de Internet: la búsqueda. Su propósito principal ha sido indexar el contenido de los sitios web en toda la Internet para que esos sitios web puedan aparecer en los resultados de los motores de búsqueda y dirigir a los usuarios de forma adecuada. En este blog, analizaremos las tendencias recientes en el rastreo web, que ahora desempeña un papel crucial y complejo con el auge de la IA.

No todos los rastreadores son iguales. Los bots, scripts automatizados que realizan tareas en Internet, se presentan de muchas formas: los que se no consideran una amenaza o “buenos” (como clientes de API, bots de indexación de búsqueda como Googlebot o verificadores de estado) y los que se consideran maliciosos o “malos” (como los utilizados para el relleno de credenciales, el spam o la extracción de contenido sin permiso). De hecho, aproximadamente el 30 % del tráfico web global actual, según los datos de Cloudflare Radar, proviene de bots, e incluso supera el tráfico humano de Internet en algunas ubicaciones.

En los últimos años ha surgido una nueva categoría: los rastreadores de IA. Estos bots recopilan datos de toda la web para entrenar modelos de IA, mejorar herramientas y experiencias, pero también plantean problemas relacionados con los derechos de contenido, el uso no autorizado y la sobrecarga de la infraestructura. Nuestro objetivo era confirmar el crecimiento de los rastreadores de búsqueda y de IA, examinar los rastreadores de IA específicos y comprender el uso más amplio de los rastreadores.

Esto es cada vez más relevante con la rápida adopción de la IA, las crecientes preocupaciones sobre los derechos de contenido y los debates sobre la privacidad de los datos. Algunos sitios y creadores buscan limitar o bloquear los rastreadores de IA utilizando herramientas como robots.txt o las reglas de firewall. Otros, como el creador independiente y empresario holandés Pieter Levels, los han adoptado: “Estoy 100 % de acuerdo con los rastreadores de IA... es muy importante para clasificar en los LLM [modelos lingüísticos de gran tamaño]”.

Es importante destacar que los rastreadores cumplen diferentes funciones. Por ejemplo, el bot facebookexternalhit no se incluye en este análisis, ya que Facebook lo utiliza para obtener el contenido de la página al generar vistas previas de los enlaces compartidos. Sin embargo, en esta publicación, solo nos centraremos en la IA y los rastreadores de búsqueda que indexan o extraen contenido del sitio web.

Perspectiva de los rastreadores basados únicamente en IA

Comencemos con una perspectiva de los rastreadores basados únicamente en IA que actualmente tenemos en Cloudflare Radar, enfocada únicamente en los rastreadores anunciados como relacionados con la IA. Para identificarlos, utilizamos una lista derivada de un proyecto de código abierto que ayuda a los propietarios de sitios web a gestionar y controlar el acceso a los rastreadores de IA, especialmente aquellos utilizados para entrenar modelos de lenguaje de gran tamaño (LLM). También ofrece una orientación sobre qué incluir en los archivos robots.txt (más detalles a continuación). Los datos mostrados a continuación se basan en la coincidencia de esos nombres de rastreadores con cadenas de agente de usuario en solicitudes HTTP. (Puedes encontrar más detalles, incluida una excepción, sobre este método al final de la publicación del blog).

El panorama de los rastreadores de IA experimentó un cambio significativo entre mayo de 2024 y mayo de 2025, con GPTBot (de OpenAI) que emergió como la fuerza dominante, y pasó del 5 % al 30 % del porcentaje de rastreo, y Meta-ExternalAgent (de Meta) que hizo una entrada sólida con un 19 %. Este crecimiento se produjo a expensas del líder anterior, Bytespider, que se desplomó del 42 % al 7 %, así como de otros rastreadores de IA como ClaudeBot y Amazonbot, que también experimentaron caídas. Nuestros datos indican claramente un reordenamiento de los principales rastreadores de IA, y destacan la creciente prominencia de OpenAI y Meta en esta categoría.

Mayo de 2024

Mayo de 2025

Clasificación

Nombre del bot

Porcentaje (mayo de 2024)

Clasificación

Nombre del bot

Porcentaje (mayo de 2025)

1

Bytespider

42 %

1

GPTBot

30 %

2

ClaudeBot

27 %

2

ClaudeBot

21 %

3

Amazonbot

21 %

3

Meta-ExternalAgent

19 %

4

GPTBot

5 %

4

Amazonbot

11 %

5

Applebot

4,1 %

5

Bytespider

7,2 %

Clasificación Nombre del bot Porcentaje (mayo de 2024) Clasificación Nombre del bot Porcentaje (mayo de 2025)
1 Bytespider 42 % 1 GPTBot 30 %
2 ClaudeBot 27 % 2 ClaudeBot 21 %
3 Amazonbot 21 % 3 Meta-ExternalAgent 19 %
4 GPTBot 5 % 4 Amazonbot 11 %
5 Applebot 4,1 % 5 Bytespider 7,2 %

Para brindar un contexto más amplio, la lista a continuación incluye información adicional sobre los bots con mayores porcentajes de rastreo observados anteriormente. Esta información proviene de la misma lista de código abierto mencionada anteriormente y de las publicaciones de empresas como OpenAI, que explican cómo se utilizan sus rastreadores. 

  • GPTBot: es el rastreador de OpenAI utilizado para mejorar y entrenar grandes modelos de lenguaje como ChatGPT.

  • ClaudeBot: es el rastreador de Anthropic para entrenar y actualizar el asistente de Claude AI.

  • Meta-ExternalAgent: es probable que el bot de Meta se utilice para recopilar datos para entrenar o ajustar los LLM.

  • Amazonbot: es el rastreador de Amazon que recopila datos para sus aplicaciones de búsqueda e IA.

  • Bytespider: es el recopilador de datos de IA de ByteDance, a menudo vinculado a modelos de entrenamiento como Ernie o la IA relacionada con TikTok.

  • Applebot: es el rastreador web (crawler) de Apple utilizado principalmente para la búsqueda en Siri y Spotlight, posiblemente utilizado en el desarrollo de IA.

  • OAI-SearchBot: es el rastreador centrado en las búsquedas de OpenAI, probablemente utilizado para recuperar información web en tiempo real para los modelos.

  • ChatGPT-User: representa el uso basado en las API o un navegador de ChatGPT en relación con las interacciones del usuario.

  • PerplexityBot: es el rastreador de Perplexity.ai, que impulsa su motor de respuestas de IA y utiliza datos web en tiempo real.

Los webmasters pueden informar a los operadores de rastreadores si desean que estos bots y rastreadores accedan a su contenido estableciendo reglas en un archivo llamado robots.txt, que indica a los rastreadores qué páginas deben o no deben acceder. Como hemos visto recientemente, los rastreadores que respetan tus políticas de robots.txt son voluntarios, pero Cloudflare ha anunciado herramientas como AI Audit para ayudar a los creadores de contenido a aplicarlas.

Ahora, como hemos visto, el panorama del rastreo web está evolucionando rápidamente, impulsado por la fusión de las funciones de los motores de búsqueda y la inteligencia artificial. La IA ahora está profundamente integrada en la búsqueda, como se observa en las Descripciones generales de IA y el Modo IA de Google, pero también en las plataformas de redes sociales, como Meta IA en Instagram. Entonces, ampliemos nuestro análisis para incluir estas actividades más amplias de rastreo impulsadas por la IA.

Crecimiento general de la IA y del rastreo de búsqueda: +18 %

Una visión más amplia revela el crecimiento del tráfico de rastreo tanto de los rastreadores de búsqueda como de los bots de IA durante los primeros meses de 2025. Para eliminar el sesgo de crecimiento de clientes, analizaremos las tendencias utilizando un conjunto fijo de clientes y de semanas específicas (un método que hemos utilizado en nuestro Resumen del año de Cloudflare Radar): la primera semana de mayo de 2024, una semana de noviembre de 2024 y la primera semana de abril de 2025. 

Usando ese método, encontramos que el tráfico de IA y los rastreadores de búsqueda crecieron un 18 % desde mayo de 2024 hasta mayo de 2025 (comparando periodos mensuales completos). El aumento fue aún mayor, del 48 %, al incluir a los nuevos clientes de Cloudflare añadidos durante ese tiempo. El tráfico máximo de IA y el rastreo de búsqueda ocurrió en abril de 2025, con un incremento del 32 % en comparación con mayo de 2024. Esto confirma que el tráfico de rastreo ha aumentado claramente durante el último año, pero también afirma que el crecimiento no siempre es constante. Google sigue siendo el actor dominante y su porcentaje de rastreo también está creciendo, como veremos en la siguiente sección.

Como muestra el siguiente gráfico, el tráfico de rastreo aumentó drásticamente en marzo y abril de 2025 y se mantuvo alto, aunque un poco más bajo, en mayo.

Los patrones en el gráfico de rastreo anterior también parecen reflejar patrones estacionales más amplios y patrones generales del tráfico humano en Internet. En 2024, el tráfico disminuyó durante el verano en el hemisferio norte, y agosto y septiembre fueron los meses menos activos. Y al igual que el tráfico general de Internet, aumentó en noviembre, cuando las personas suelen estar más en línea debido a los hábitos estacionales y de compra, como hemos visto en análisis anteriores

El rastreo de Googlebot aumentó un 96 % en un año

Googlebot, que indexa contenido para la búsqueda de Google, fue claramente el principal rastreador durante el período y mostró un fuerte crecimiento, un 96 % desde mayo de 2024 hasta mayo de 2025,lo que refleja un mayor rastreo por parte de Google. El tráfico de rastreo alcanzó su punto máximo en abril de 2025, esto implica un 145 % más que en mayo de 2024. También es importante mencionar que Google realizó cambios en su motor de búsqueda y lanzó AI Overviews durante este tiempo, primero en EE. UU. en mayo de 2024, y luego en más países.

Dos tendencias se destacan al observar los datos diarios de los rastreadores relacionados con Google, como se muestra en el gráfico a continuación. En primer lugar, Googlebot y el más reciente GoogleOther (un rastreador web de 2023 para "investigación y desarrollo") representan la mayor parte de la actividad de rastreo de Google. En segundo lugar, hubo dos caídas visibles en el tráfico de rastreo: una el 14 de diciembre de 2024 (alrededor de una actualización de la Búsqueda de Google) y otra del 20 al 28 de mayo de 2025. Esa caída del 20 de mayo ocurrió casi al mismo tiempo que el lanzamiento del Modo IA en la búsqueda de Google en EE. UU., aunque el momento podría ser una coincidencia.

Detalle de los 20 principales rastreadores de IA y de búsqueda web 

Clasificar los rastreadores por su participación en el total de solicitudes proporciona una imagen más clara de qué bots están ganando o perdiendo terreno, especialmente entre aquellos enfocados en la búsqueda y la IA. La tabla a continuación muestra una tendencia clara: algunos bots de IA han crecido rápidamente desde el año pasado (con el crecimiento que comenzó incluso antes), mientras que muchos rastreadores de búsqueda tradicionales se han mantenido estables o han perdido porcentaje de rastreo (como en el caso de Bing y su rastreador Bingbot). La principal excepción es Googlebot.

La siguiente tabla muestra el porcentaje de rastreo de cada rastreador en el tráfico total de rastreo generado por esta lista específica de más de 30 rastreadores de IA y de búsqueda observados por Cloudflare en mayo de 2024 y mayo de 2025. La tabla a continuación también incluye el cambio en puntos porcentuales y el crecimiento o disminución en el volumen bruto de solicitudes. Los rastreadores se clasifican por su porcentaje de rastreo en mayo de 2025. Los cambios clave de los rastreadores incluyen el fuerte aumento de GPTBot (+305 %), mientras que Bytespider disminuyó drásticamente (-85 %).

Clasificación

Nombre del bot

Porcentaje Mayo de 2024

Porcentaje Mayo de 2025

Δ cambio de puntos porcentuales

Crecimiento de solicitudes brutas (mayo de 2024 a mayo de 2025)

1

Googlebot

30 %

50 %

+20 pp

96 %

2

Bingbot

10 %

8,7 %

-1,3 pp

2 %

3

GPTBot

2,2 %

7,7 %

+5,5 pp

305 %

4

ClaudeBot

11,7 %

5,4 %

-6,3 pp

-46%

5

GoogleOther

4,4 %

4,3 %

-0,1 pp

14 %

6

Amazonbot

7,6 %

4,2 %

-3,4 pp

-35 %

7

Googlebot-Image

4,5 %

3,3 %

-1,2 pp

-13 %

8

Bytespider

22,8 %

2,9%

-19,8 pp

-85 %

9

Yandex

2,8 %

2,2 %

-0,7 pp

-10 %

10

Usuario de ChatGPT

0,1 %

1,3 %

+1,2 pp

2,825 %

11

Applebot

1,9 %

1,2 %

-0,7 pp

-26 %

12

Timpibot

0,3 %

0,6 %

+0,3 pp

133 %

13

Baiduspider

0,5 %

0,4 %

-0,1 pp

7 %

14

PerplexityBot

<0,01 %

0,2 %

+0,2 pp

157 490 %

15

DuckDuckBot

0,2 %

0,1 %

-0,1 pp

-16 %

16

SeznamBot

0,1 %

0,1 %

2 %

17

Yeti

0,1 %

0,1 %

47 %

18

coccocbot

0,1 %

0,1 %

-3 %

19

Sogou

0,1 %

0,1 %

-22 %

20

Yahoo! Slurp

0,1 %

0,0 %

-0,1 pp

-8 %

Clasificación Nombre del bot Porcentaje en mayo de 2024 Porcentaje en mayo de 2025 Δ cambio de puntos porcentuales Crecimiento de solicitudes brutas (mayo de 2024 a mayo de 2025)
1 Googlebot 30 % 50 % +20 pp 96 %
2 Bingbot 10 % 8,7 % -1,3 pp 2 %
3 GPTBot 2.2 % 7,7 % +5,5 pp 305 %
4 ClaudeBot 11,7 % 5,4 % -6,3 pp -46%
5 GoogleOther 4,4 % 4,3 % -0,1 pp 14 %
6 Amazonbot 7,6 % 4,2 % -3,4 pp -35 %
7 Googlebot-Image 4,5 % 3,3 % -1.2 pp -13 %
8 Bytespider 22,8 % 2,9% -19,8 pp -85 %
9 Yandex 2.8 % 2.2 % -0.7 pp -10 %
10 Usuario de ChatGPT 0,1 % 1.3 % +1.2 pp 2,825 %
11 Applebot 1.9 % 1.2 % -0.7 pp -26 %
12 Timpibot 0,3 % 0,6 % +0,3 pp 133 %
13 Baiduspider 0,5 % 0,4 % -0,1 pp 7 %
14 PerplexityBot <0.01 % 0,2 % +0.2 pp 157 490 %
15 DuckDuckBot 0,2 % 0,1 % -0,1 pp -16 %
16 SeznamBot 0,1 % 0,1 % 2 %
17 Yeti 0,1 % 0,1 % 47 %
18 coccocbot 0,1 % 0,1 % -3 %
19 Sogou 0,1 % 0,1 % -22 %
20 Yahoo! Slurp 0,1 % 0,0 % -0,1 pp -8 %

Según estos datos, dos cambios importantes ocurrieron en el rastreo web entre mayo de 2024 y mayo de 2025:

1. Algunos rastreadores de IA aumentaron de forma considerable. GPTBot (de OpenAI) incrementó su participación del 2,2 % al 7,7 % (+5,5 pp), con un incremento del 305 % en las solicitudes. Esto subraya la demanda de datos para entrenar modelos lingüísticos de gran tamaño como ChatGPT. GPTBot saltó del puesto n.º 9 en mayo de 2024 al n.º 3 en mayo de 2025.

Otro rastreador de OpenAI, ChatGPT-User, experimentó un aumento de las solicitudes del 2,825 %, y alcanzó un porcentaje de rastreo del 1,3 %. Esto refleja un gran aumento en la actividad de los usuarios de ChatGPT o en las interacciones basadas en API que implican el acceso a contenido web. PerplexityBot (de Perplexity.ai), a pesar de tener un pequeño porcentaje de rastreo del 0,2 %, registró la tasa de crecimiento más alta: un aumento asombroso del 157 490 % en las solicitudes sin procesar.

Mientras tanto, algunos rastreadores de IA vieron descensos pronunciados. ClaudeBot (Anthropic) cayó del 11,7% al 5,4% del tráfico total y disminuyó un 46% en las solicitudes. Bytespider se desplomó un 85 % en volumen de solicitudes, y cayó del n.º 2 al n.º 8 en el porcentaje d erastreo (actualmente solo el 2,9 %).

Tanto Amazonbot como Applebot, también considerados rastreadores de IA, experimentaron disminuciones en el porcentaje de rastreo y en las solicitudes sin procesar (–35 % y –26 %, respectivamente).

2. El dominio de Google se expandió. El porcentaje de rastreo de Googlebotaumentó del 30 % al 50 %, lo que respalda la indexación de búsqueda, pero también podría tener fines relacionados con la IA (como las nuevas vistas generales de IA en la Búsqueda de Google). Y GoogleOther (el rastreador introducido en 2023) también aumentó el tráfico de rastreo, un 14 %. Otros rastreadores de Google que no están entre los 20 principales, como Googlebot-News, también crecieron significativamente (+71 % en solicitudes). Hay una clara tendencia de crecimiento en estos rastreadores web (crawler) relacionadas con Google en un momento en que la empresa está invirtiendo fuertemente en combinar la IA con la búsqueda.

También en la categoría de búsqueda, el porcentaje de rastreo de Bingbot (de Microsoft) disminuyó ligeramente del 10 % al 8,7 % (-1,3 pp), aunque sus solicitudes sin procesar crecieron moderadamente un 2 %.

Estas tendencias muestran que el rastreo web está cada vez más dominado por bots de Google y OpenAI, y esto refleja cambios claros a lo largo de un año. Google también parece estar adaptando la manera en que recopila datos para apoyar tanto la búsqueda tradicional como las funciones impulsadas por IA.

También vale la pena destacar FriendlyCrawler, que ya no aparece en la lista de los 20 principales desde mayo de 2025 (ahora ocupa el puesto n.º 35). Ocupó el puesto n.º 14 en mayo de 2024 con un porcentaje de rastreo del 0,2 %, pero experimentó una caída del 100 % en las solicitudes para mayo de 2025. Se sabe que este bot indexa y analiza el contenido de los sitios web, aunque su propietario y propósito siguen sin estar claros. Normalmente, los rastreadores como este se utilizan para mejorar los resultados de búsqueda, la investigación de mercado o el análisis.

robots.txt y bots de IA: GPTBot lidera doblemente

Datos recientes del 6 de junio de 2025 de Cloudflare Radar muestran que de 3816 dominios (de los 10 000 principales) en los que pudimos encontrar un archivo robots.txt, 546 (alrededor del 14 %) tenían la regla de "permitir" o "no permitir" (total o parcialmente) dirigidas en particular a los bots de IA.

Esto deja a muchos propietarios de sitios en una zona gris porque no siempre está claro cuán efectivo es robots.txt en la gestión de los rastreadores de IA. Es posible que algunos propietarios de sitios no consideren usarlo específicamente para los bots de IA, mientras que otros podrían no estar seguros de si estos bots respetan las reglas de robots.txt , especialmente los rastreadores más nuevos o menos transparentes. En otros casos, los sitios utilizan reglas parciales para ajustar el acceso, tratando de equilibrar la visibilidad y la protección sin optar completamente por una opción u otra.

Las reglas de “no permitir” aparecen con mucha más frecuencia que las reglas de “permitir”. El bot bloqueado con mayor frecuencia fue GPTBot, rechazado por 312 dominios (250 totalmente, 62 parcialmente), seguido de CCBot y Google-Extended, como se muestra en el siguiente gráfico.

Aunque GPTBot fue el más bloqueado, también fue el más permitido explícitamente, con 61 dominios que otorgaron acceso (18 con total acceso, 43 con acceso parcial). Aun así, muy pocos sitios permiten abiertamente y de manera explícita los bots de IA, y cuando lo hacen, generalmente es para secciones limitadas. Ten en cuenta que los bots que no están listados en el archivo robots.txt de un sitio están permitidos por defecto.

A medida que aumenta el rastreo de IA, más sitios web están pasando de señales pasivas como robots.txt a protecciones activas como los firewalls de aplicaciones web. El ecosistema está cambiando, con un enfoque creciente en la aplicación de los controles.

Nota: cuando analizamos el tráfico de los rastreadores, comparamos los tokens de agente de usuario encontrados en los archivos robots.txt (como los de los rastreadores de IA) con las cadenas reales de agente de usuario en las solicitudes HTTP. Es importante señalar que algunos tokens de robots.txt, como Google-Extended, no son subcadenas de agentes de usuario. Como se describe en RFC 9309, un objetivo de estos tokens puede ser señalar el propósito del rastreador. Por ejemplo, Google utiliza Google-Extended en robots.txt para verificar si tu contenido puede ser utilizado para el entrenamiento de IA, pero el tráfico en sí proviene de agentes de usuario estándar de Google como Googlebot. Por esta razón, no todas las entradas de robots.txt tendrán una coincidencia directa en los registros de solicitudes HTTP.

Conclusión

A medida que los rastreadores de IA le dan una nueva forma a la Internet, los sitios web enfrentan tanto nuevos desafíos como nuevas oportunidades al gestionar su presencia en línea.

Este análisis destaca el creciente impacto de la IA en el rastreo web, mostrando un claro cambio de la indexación de búsqueda tradicional a la recopilación de datos para el entrenamiento de modelos de IA. Las estadísticas detalladas, como el crecimiento continuo de Googlebot y el rápido aumento de los rastreadores específicos de IA, ofrecen un contexto para entender cómo está evolucionando este espacio y qué significa para el futuro del acceso al contenido web.

La tendencia hacia los métodos de bloqueo más fuertes y ejecutables, algo en lo que Cloudflare también ha invertido, indica un cambio clave en cómo los sitios web pueden controlar sus interacciones con los sistemas de IA en el futuro.

La conectividad cloud de Cloudflare protege redes corporativas completas, ayuda a los clientes a desarrollar de forma eficiente aplicaciones a escala de Internet, acelera cualquier sitio web o aplicación de Internet, previene contra los ataques DDoS, mantiene a raya a los hackers, y te puede ayudar en tu recorrido hacia la seguridad Zero Trust.

Visita 1.1.1.1 desde cualquier dispositivo para empezar a utilizar nuestra aplicación gratuita y beneficiarte de una navegación más rápida y segura.

Para saber más sobre nuestra misión para ayudar a mejorar Internet, empieza aquí. Si estás buscando un nuevo rumbo profesional, consulta nuestras ofertas de empleo.
Pay per crawlIARadarAI BotsBots

Síguenos en X

João Tomé|@emot
Cloudflare|@cloudflare

Publicaciones relacionadas