Assine para receber notificações de novos posts:

Do Googlebot ao GPTBot: quem está usando crawlers em seu site em 2025

2025-07-01

9 min. de leitura
Este post também está disponível em English, 日本語, Español (Latinoamérica) e 简体中文.

Os web crawlers não são novidade. O World Wide Web Wanderer foi lançado em 1993, embora os primeiros mecanismos de pesquisa na web a realmente usarem crawlers e indexadores tenham sido o JumpStation e o WebCrawler. Os crawlers são parte de uma das bases do sucesso da internet: a pesquisa. O objetivo principal deles tem sido indexar o conteúdo de sites em toda a internet para que esses sites possam aparecer nos resultados dos mecanismos de pesquisa e direcionar os usuários de forma adequada. Neste post do blog, analisamos as tendências recentes na atividades de crawlers da web, que agora desempenha um papel crucial e complexo com a ascensão da IA.

Nem todos os crawlers são iguais. Bots, scripts automatizados que executam tarefas na internet, apresentam-se em muitas formas: aqueles considerados não ameaçadores ou “bons” (como clientes de API, bots de indexação de pesquisa como o Googlebot ou verificadores de integridade) e aqueles considerados maliciosos ou “ruins” (como os usados para preenchimento de credenciais, spam ou raspagem de conteúdo sem permissão). Na verdade, cerca de 30% do tráfego global da web hoje, de acordo com os dados do Cloudflare Radar, vem de bots e até excede o tráfego humano da internet em alguns locais.

Uma nova categoria, crawlers de IA, surgiu nos últimos anos. Esses bots coletam dados de toda a web para treinar modelos de IA, melhorando ferramentas e experiências, mas também levantando questões sobre direitos sobre conteúdo, uso não autorizado e sobrecarga de infraestrutura. Tínhamos como objetivo confirmar o crescimento dos crawlers de pesquisa e de IA, examinar crawlers de IA específicos e compreender o uso mais amplo dos crawlers.

Isso é cada vez mais relevante com a rápida adoção da IA, as crescentes preocupações com os direitos de conteúdo e as discussões sobre privacidade de dados. Alguns sites e criadores estão procurando limitar ou bloquear os crawlers de IA usando ferramentas como robots.txt ou regras de firewall. Outros, como o criador indie e empreendedor holandês Pieter Levels, os adotaram: “Estou 100% bem com os crawlers de IA... é muito importante classificar em LLMs [grandes modelos de linguagem]”.

É importante notar que os crawlers têm finalidades diferentes. Por exemplo, o bot facebookexternalhit não está incluído nesta análise, pois é utilizado pelo Facebook para buscar o conteúdo da página ao gerar visualizações de links compartilhados. No entanto, neste post, estamos focando apenas nos crawlers de IA e de pesquisa que estão indexando ou raspando o conteúdo do site.

Perspectiva dos crawlers apenas de IA

Vamos começar com uma perspectiva dos crawlers apenas de IA que temos atualmente no Cloudflare Radar, focada apenas em crawlers anunciados como relacionados à IA. Para identificá-los, estamos usando aqui uma lista derivada de um projeto de código aberto que ajuda os proprietários de sites a gerenciar e controlar o acesso a crawlers de IA, especialmente aqueles usados para treinar grandes modelos de linguagem (LLMs). Isso também fornece orientação sobre o que incluir nos arquivos robots.txt (mais sobre isso abaixo). Os dados apresentados abaixo baseiam-se na correspondência desses nomes de crawlers com as cadeias de caracteres de agente de usuário em solicitações HTTP. (Mais detalhes, incluindo uma exceção, sobre este método podem ser encontrados no final deste post do blog.)

O cenário dos crawlers de IA passou por uma mudança significativa entre maio de 2024 e maio de 2025, com o GPTBot (da OpenAI) emergindo como a força dominante, passando de 5% para 30% de participação, e o Meta-ExternalAgent (da Meta) fazendo uma nova entrada forte com 19%. Esse crescimento ocorreu às custas do ex-líder Bytespider, que despencou de 42% para 7%, bem como de outros crawlers de IA, como ClaudeBot e Amazonbot, que também registraram quedas. Nossos dados indicam claramente uma reordenação dos principais crawlers de IA, destacando a crescente proeminência da OpenAI e da Meta nesta categoria.

Maio de 2024

Maio de 2025

Classificação

Nome do bot

Participação (maio de 2024)

Classificação

Nome do bot

Participação (maio de 2025)

1

Bytespider

42%

1

GPTBot

30%

2

ClaudeBot

27%

2

ClaudeBot

21%

3

Amazonbot

21%

3

Meta-ExternalAgent

19%

4

GPTBot

5%

4

Amazonbot

11%

5

Applebot

4,1%

5

Bytespider

7,2%

Classificação Nome do bot Participação (maio de 2024) Classificação Nome do bot Participação (maio de 2025)
1 Bytespider 42% 1 GPTBot 30%
2 ClaudeBot 27% 2 ClaudeBot 21%
3 Amazonbot 21% 3 Meta-ExternalAgent 19%
4 GPTBot 5% 4 Amazonbot 11%
5 Applebot 4,1% 5 Bytespider 7,2%

Para mais contexto, a lista abaixo inclui mais informações sobre os bots com as maiores participações de atividades de crawlers vistas acima. Essas informações vêm da mesma lista de códigos abertos mencionada acima e de publicações de empresas como a OpenAI, que explicam como seus crawlers são usados. 

  • GPTBot – Crawler da OpenAI usado para melhorar e treinar grandes modelos de linguagem como o ChatGPT.

  • ClaudeBot – Crawler da Anthropic para treinamento e atualização do assistente Claude AI.

  • Meta-ExternalAgent – Bot da Meta provavelmente usado para coletar dados para treinar ou ajustar LLMs.

  • Amazonbot – Crawler da Amazon que coleta dados para seus aplicativos de pesquisa e de IA.

  • Bytespider – Coletor de dados de IA da ByteDance, frequentemente associado a modelos de treinamento como o Ernie ou a IA relacionada ao TikTok.

  • Applebot – Web crawler da Apple, principalmente para pesquisas da Siri e do Spotlight, possivelmente utilizado no desenvolvimento de IA.

  • OAI-SearchBot – Crawler focado em pesquisa da OpenAI, provavelmente usado para recuperar informações da web em tempo real para modelos.

  • ChatGPT-User – Representa o uso do ChatGPT baseado em API ou no navegador em conexão com as interações dos usuários.

  • PerplexityBot – Crawler da Perplexity.ai, que alimenta seu mecanismo de respostas de IA usando dados da web em tempo real.

Os webmasters podem informar aos operadores de crawlers se desejam que esses bots e crawlers acessem seu conteúdo estabelecendo regras em um arquivo chamado robots.txt, que informa aos crawlers quais páginas eles devem ou não acessar. Como vimos recentemente, os crawlers que respeitam suas políticas robots.txt são voluntários, mas a Cloudflare anunciou ferramentas como o AI Audit para ajudar os criadores de conteúdo a aplicá-las.

Agora, como vimos, o cenário de atividade de crawlers da web está evoluindo rapidamente, impulsionado pela fusão dos papéis dos mecanismos de pesquisa e da IA. A IA agora está profundamente integrada à pesquisa, como visto no AI Overviews e no AI Mode do Google, mas também nas plataformas de redes sociais, como a Meta AI no Instagram. Então, vamos expandir nossa análise para incluir essas atividades mais amplas de crawlers orientadas por IA.

Crescimento geral das atividades de crawlers de IA e de pesquisa: +18%

Uma visão mais ampla revela o crescimento do tráfego de atividades de crawlers tanto de crawlers de pesquisa quanto de IA nos primeiros meses de 2025. Para remover o viés de crescimento de clientes, analisaremos tendências usando um conjunto fixo de clientes em semanas específicas (um método que usamos em nossa Análise do ano do Cloudflare Radar): a primeira semana de maio de 2024, uma semana em novembro de 2024 e a primeira semana de abril de 2025. 

Usando esse método, descobrimos que o tráfego de crawlers de IA e de pesquisa cresceu 18% de maio de 2024 a maio de 2025 (comparando períodos de mês completo). O aumento foi ainda maior, de 48%, ao incluir novos clientes da Cloudflare adicionados durante esse período. O pico do tráfego de crawlers de IA e de pesquisa ocorreu em abril de 2025, com um aumento de 32% em comparação com maio de 2024. Isso confirma que o tráfego de crawlers aumentou claramente no último ano, mas também que o crescimento nem sempre é constante. O Google continua sendo o principal player e sua participação também está crescendo, como veremos na próxima seção.

Conforme o gráfico a seguir, o tráfego de crawlers aumentou acentuadamente em março e abril de 2025 e manteve-se alto, embora ligeiramente menor, em maio.

Os padrões no gráfico da atividade de crawlers acima também parecem refletir padrões sazonais mais amplos e padrões gerais de tráfego humano na internet. Em 2024, o tráfego diminuiu durante o verão no hemisfério norte, sendo agosto e setembro os meses menos ativos. E, assim como o tráfego geral da internet, ele aumentou em novembro, quando as pessoas normalmente estão mais on-line devido às compras e aos hábitos sazonais, como vimos em análises passadas

A atividade de crawlers do Googlebot cresceu 96% em um ano

Googlebot, que indexa conteúdo para a Pesquisa Google, foi claramente o principal crawler durante todo o período e mostrou um forte crescimento, subindo 96% de maio de 2024 a maio de 2025, refletindo o aumento da atividade de crawlers pelo Google. O tráfego de atividade de crawlers atingiu o pico em abril de 2025, alcançando 145% a mais do que em maio de 2024. Também é importante mencionar que o Google fez alterações em seu mecanismo de pesquisa e lançou o AI Overviews durante esse período — primeiro nos EUA em maio de 2024, depois em mais países.

Duas tendências se destacam ao observar os dados diários dos crawlers relacionados ao Google, conforme ilustrado no gráfico abaixo. Primeira, o Googlebot e o mais recente GoogleOther (um web crawler de 2023 para “pesquisa e desenvolvimento”) são responsáveis pela maior parte da atividade de crawlers do Google. Em segundo lugar, houve duas quedas visíveis no tráfego de atividade de crawlers: uma em 14 de dezembro de 2024 (em torno de uma atualização da Pesquisa Google) e outra de 20 a 28 de maio de 2025. A queda de 20 de maio ocorreu aproximadamente na mesma época do lançamento do AI Mode na Pesquisa Google nos EUA, embora o momento possa ser coincidência.

Análise dos vinte principais web crawlers de IA e de pesquisa 

Classificar os crawlers pela sua participação no total de solicitações oferece uma visão mais clara de quais bots estão ganhando ou perdendo espaço, especialmente entre aqueles focados em pesquisa e IA. A tabela abaixo mostra uma tendência clara: alguns bots de IA cresceram rapidamente desde o ano passado (com o crescimento começando ainda mais cedo), enquanto muitos crawlers de pesquisa tradicionais permaneceram estáveis ou perderam participação (como no caso do Bing e seu crawler Bingbot). A principal exceção é o Googlebot.

A tabela a seguir mostra a porcentagem de participação de cada crawler em relação a todo o tráfego de atividade de crowlers gerado por este grupo específico de mais de 30 crawlers de IA e pesquisa observados pela Cloudflare em maio de 2024 e maio de 2025. A tabela abaixo também inclui a mudança em pontos percentuais e o crescimento ou declínio no volume bruto de solicitações. Os crawlers são classificados por sua participação em maio de 2025. As principais mudanças nos crawlers incluem o GPTBot, que aumentou bruscamente (+305%), enquanto o Bytespider caiu drasticamente (-85%).

Classificação

Nome do bot

Participação maio de 2024

Participação maio de 2025

Variação Δ de ponto percentual

Crescimento de solicitações brutas (maio de 2024 a maio de 2025)

1

Googlebot

30%

50%

+20 pp

96%

2

Bingbot

10%

8,7%

-1,3 pp

2%

3

GPTBot

2,2%

7,7%

+5,5 pp

305%

4

ClaudeBot

11,7%

5,4%

-6,3 pp

-46%

5

GoogleOther

4,4%

4,3%

-0,1 pp

14%

6

Amazonbot

7,6%

4,2%

-3,4 pp

-35%

7

Googlebot-Image

4,5%

3,3%

-1,2 pp

-13%

8

Bytespider

22,8%

2,9%

-19,8 pp

-85%

9

Yandex

2,8%

2,2%

-0,7 pp

-10%

10

ChatGPT-User

0,1%

1,3%

+1,2 pp

2,825%

11

Applebot

1,9%

1,2%

-0,7 pp

-26%

12

Timpibot

0,3%

0,6%

+0,3 pp

133%

13

Baiduspider

0,5%

0,4%

-0,1 pp

7%

14

PerplexityBot

<0,01%

0,2%

+0,2 pp

157,490%

15

DuckDuckBot

0,2%

0,1%

-0,1 pp

-16%

16

SeznamBot

0,1%

0,1%

2%

17

Yeti

0,1%

0,1%

47%

18

coccocbot

0,1%

0,1%

-3%

19

Sogou

0,1%

0,1%

-22%

20

Yahoo! Slurp

0,1%

0,0%

-0,1 pp

-8%

Classificação Nome do bot Participação maio de 2024 Participação maio de 2025 Variação Δ de ponto percentual Crescimento de solicitações brutas (maio de 2024 a maio de 2025)
1 Googlebot 30% 50% +20 pp 96%
2 Bingbot 10% 8,7% -1,3 pp 2%
3 GPTBot 2,2% 7,7% +5,5 pp 305%
4 ClaudeBot 11,7% 5,4% -6,3 pp -46%
5 GoogleOther 4,4% 4,3% -0,1 pp 14%
6 Amazonbot 7,6% 4,2% -3,4 pp -35%
7 Googlebot-Image 4,5% 3,3% -1,2 pp -13%
8 Bytespider 22,8% 2,9% -19,8 pp -85%
9 Yandex 2,8% 2,2% -0,7 pp -10%
10 ChatGPT-User 0,1% 1,3% +1,2 pp 2,825%
11 Applebot 1,9% 1,2% -0,7 pp -26%
12 Timpibot 0,3% 0,6% +0,3 pp 133%
13 Baiduspider 0,5% 0,4% -0,1 pp 7%
14 PerplexityBot <0,01% 0,2% +0,2 pp 157,490%
15 DuckDuckBot 0,2% 0,1% -0,1 pp -16%
16 SeznamBot 0,1% 0,1% 2%
17 Yeti 0,1% 0,1% 47%
18 coccocbot 0,1% 0,1% -3%
19 Sogou 0,1% 0,1% -22%
20 Yahoo! Slurp 0,1% 0,0% -0,1 pp -8%

Com base nesses dados, duas grandes mudanças na atividade dos web crawlers ocorreram entre maio de 2024 e maio de 2025:

1. Alguns crawlers de IA aumentaram drasticamente. O GPTBot (da OpenAI) aumentou sua participação de 2,2% para 7,7% (+5,5 pp), com um aumento de 305% nas solicitações. Isso destaca a demanda por dados para treinar grandes modelos de linguagem como o ChatGPT. O GPTBot saltou do 9º lugar em maio de 2024 para o 3º lugar em maio de 2025.

Outro crawler da OpenAI, ChatGPT-User, viu as solicitações aumentarem em 2.825%, alcançando uma participação de 1,3%. Isso reflete um grande aumento na atividade dos usuários do ChatGPT ou em interações baseadas em API que envolvem o acesso a conteúdo da web. O PerplexityBot (da Perplexity.ai), apesar de uma pequena participação de 0,2%, registrou a maior taxa de crescimento: um aumento impressionante de 157.490% nas solicitações brutas.

Enquanto isso, alguns crawlers de IA experimentaram quedas acentuadas. O ClaudeBot (Anthropic) caiu de 11,7% para 5,4% do tráfego total e caiu 46% nas solicitações. O Bytespider despencou 85% no volume de solicitações, caindo do 2º para o 8º lugar na participação de crawlers (agora com apenas 2,9%).

Tanto o Amazonbot quanto o Applebot, também considerados crawlers de IA, tiveram quedas na participação e nas solicitações brutas (-35% e -26%, respectivamente).

2. O domínio do Google se expandiu. A participação do Googlebot aumentou de 30% para 50%, apoiando a indexação de pesquisa, mas possivelmente também com fins relacionados à IA (como o novo AI Overviews na Pesquisa Google). E o GoogleOther (o crawler introduzido em 2023) também aumentou no tráfego de rastreamento, 14%. Outros crawlers do Google que não estão entre os 20 principais, como o Googlebot-News, também cresceram significativamente (+71% em solicitações). Há uma clara tendência de crescimento desses web crawlers relacionados ao Google, num momento em que a empresa está investindo fortemente na combinação de IA com pesquisa.

Também na categoria de pesquisa, a participação do Bingbot (da Microsoft) diminuiu ligeiramente de 10% para 8,7% (-1,3 pp), embora suas solicitações brutas ainda tenham crescido modestamente em 2%.

Essas tendências mostram que a atividade de web crawlers é cada vez mais dominada por bots do Google e da OpenAI, refletindo mudanças claras ao longo de um ano. O Google também parece estar adaptando a maneira como coleta dados para dar suporte tanto à pesquisa tradicional quanto a funcionalidades impulsionadas por IA.

Também é digno de nota o FriendlyCrawler, que não aparece mais na lista dos vinte principais desde maio de 2025 (agora classificado em 35º lugar). Foi o 14º em maio de 2024, com 0,2% de participação, mas teve uma queda de 100% nas solicitações até maio de 2025. Esse bot é conhecido por indexar e analisar o conteúdo de sites, embora seu proprietário e objetivo não sejam claros. Normalmente, crawlers como este são usados para melhorar os resultados de pesquisa, fazer pesquisa de mercado ou análises.

robots.txt e bots de IA: GPTBot lidera duas vezes

Dados recentes de 6 de junho de 2025 do Cloudflare Radar mostram que, dos 3.816 domínios (dos 10 mil principais) nos quais conseguimos encontrar um arquivo robots.txt, 546 (cerca de 14%) tinham "allow" ou "disallow" (total ou parcialmente) direcionadas especificamente a bots de IA.

Isso deixa muitos proprietários de sites em uma área cinzenta, pois nem sempre está claro quanto o robots.txt é eficaz no gerenciamento de crawlers de IA. Alguns proprietários de sites podem não pensar em usá-lo especificamente para bots de IA, enquanto outros podem estar inseguros se esses bots respeitam as regras do robots.txt, especialmente crawlers mais novos ou menos transparentes. Em outros casos, os sites utilizam regras parciais para ajustar o acesso, buscando equilibrar visibilidade e proteção sem optar por participar ou não totalmente.

As regras “disallow” aparecem com muito mais frequência do que as regras “allow”. O bot bloqueado com mais frequência foi o GPTBot, proibido por 312 domínios (250 totalmente, 62 parcialmente), seguido pelo CCBot e Google-Extended, conforme mostrado no gráfico a seguir.

Embora o GPTBot tenha sido o mais bloqueado, também foi o mais explicitamente permitido, com 61 domínios concedendo acesso (18 totalmente, 43 parcialmente). Ainda assim, pouquíssimos sites permitem abertamente e explicitamente bots de IA, e quando o fazem, geralmente é para seções limitadas. Observe que bots não listados no arquivo robots.txt de um site são permitidos por padrão.

À medida que a atividade de crawlers de IA aumenta, mais sites estão mudando de sinais passivos, como robots.txt, para proteções ativas, como firewalls de aplicativos web. O ecossistema está mudando, com um foco crescente em controles executáveis.

Observação: ao analisarmos o tráfego de crawlers, comparamos os tokens de agente de usuário encontrados em arquivos robots.txt (como os para crawlers de IA) com as cadeias de caracteres de agente de usuário reais em solicitações HTTP. É importante notar que alguns tokens do robots.txt, como o Google-Extended, não são sub cadeias de caracteres de agente de usuário. Conforme descrito no RFC 9309, um dos objetivos desses tokens pode ser sinalizar o objetivo do crawler. Por exemplo, o Google utiliza o Google-Extended no robots.txt para verificar se seu conteúdo pode ser usado para treinamento de IA, mas o tráfego em si ainda provém de agentes de usuário padrão do Google, como o Googlebot. Por causa disso, nem todas as entradas do robots.txt terão uma correspondência direta nos registros de solicitações HTTP.

Conclusão

À medida que os crawlers de IA remodelam a internet, os sites enfrentam tanto novos desafios quanto novas oportunidades na gestão de sua presença on-line.

Esta análise destaca o impacto crescente da IA na atividade de web crawlers, evidenciando uma clara transição da indexação de pesquisa tradicional para a coleta de dados destinada ao treinamento de modelos de IA. As estatísticas detalhadas, como o crescimento contínuo do Googlebot e a rápida ascensão de crawlers específicos para IA, oferecem contexto para entender como esse espaço está evoluindo e o que isso significa para o futuro do acesso ao conteúdo da web.

A tendência para métodos de bloqueio mais fortes e aplicáveis, algo em que a Cloudflare também tem investido, sinaliza uma mudança importante na forma como os sites podem controlar suas interações com sistemas de IA no futuro.

Protegemos redes corporativas inteiras, ajudamos os clientes a criarem aplicativos em escala de internet com eficiência, aceleramos qualquer site ou aplicativo de internet, evitamos os ataques de DDoS, mantemos os invasores afastados e podemos ajudar você em sua jornada rumo ao Zero Trust.

Acesse 1.1.1.1 a partir de qualquer dispositivo para começar a usar nosso aplicativo gratuito que torna sua internet mais rápida e mais segura.

Para saber mais sobre nossa missão de construir uma internet melhor, comece aqui. Se estiver procurando uma nova carreira para trilhar, confira nossas vagas disponíveis.
Pay per crawlAIRadarAI Bots (PT)Bots

Seguir no X

João Tomé|@emot
Cloudflare|@cloudflare

Posts relacionados