Robots.txt AI Bot Checker: veja quais crawlers de IA permite
Cole o seu domínio e nós lemos o seu robots.txt, depois mostramos — bot a bot — se permite ou bloqueia GPTBot, ClaudeBot, Google-Extended, PerplexityBot e todos os outros crawlers de IA importantes. Descubra se está visível na pesquisa por IA antes dos seus concorrentes. Sem registo.
Grátis, sem registo. Lemos o seu robots.txt e mostramos quais crawlers de IA — GPTBot, ClaudeBot, Google-Extended, PerplexityBot e mais — você atualmente permite ou bloqueia.
Porque os bots de IA no seu robots.txt importam para a visibilidade
O seu robots.txt é a primeira coisa que um crawler lê, e hoje as empresas de IA têm os seus próprios crawlers com nomes de user-agent específicos. Só a OpenAI usa GPTBot para treino, OAI-SearchBot para o ChatGPT Search e ChatGPT-User para acessos a pedido. Anthropic, Google, Perplexity, Common Crawl e outros têm cada um os seus. Uma única regra Disallow decide se o seu conteúdo pode alimentar e ser citado por estes sistemas.
Errar num sentido ou no outro custa-lhe: bloqueie os crawlers de pesquisa e a sua marca desaparece das respostas de IA; deixe os crawlers de treino abertos quando pretendia recusar e o seu conteúdo treina modelos de graça. Uma verificação rápida diz-lhe exatamente em que ponto está em cada bot de IA importante.
Como ler o seu resultado
Permitido
O crawler pode aceder à raiz do seu site. Para bots de pesquisa por IA como OAI-SearchBot, ClaudeBot e PerplexityBot, é isto que o mantém elegível para ser citado nas respostas de IA.
Parcial
O crawler consegue chegar ao seu site, mas o seu robots.txt proíbe-lhe alguns caminhos. Normalmente está bem — apenas confirme que não está a esconder páginas que quer destacar na pesquisa por IA.
Bloqueado
Uma regra Disallow: / trava este crawler logo à entrada. Intencional para recusar o treino, mas um problema se for um crawler de pesquisa ao qual queria continuar visível.
Erros comuns no robots.txt — e como corrigi-los
Bloquear a pesquisa por IA por engano.
Um Disallow genérico que apanha o OAI-SearchBot ou o PerplexityBot remove-o silenciosamente das respostas de IA. Permita os crawlers de pesquisa; bloqueie apenas os bots de treino se for mesmo necessário.
Depender de User-agent: * para a IA.
Muitos crawlers de IA ignoram o grupo com wildcard e só obedecem a uma regra que nomeie o seu token exato. Direcione cada bot de IA pelo seu user-agent específico.
Confundir Google-Extended com Googlebot.
Bloquear o token errado ou deixa o treino de IA ativo ou desindexa-o por engano da Pesquisa. Use Google-Extended para a IA e Googlebot para a Pesquisa.
Confiar no robots.txt como firewall.
O robots.txt é indicativo — não trava os crawlers que escolhem ignorá-lo nem o scraping feito por terceiros. Use bloqueio do lado do servidor para os bots que tem mesmo de travar por completo.
Monitorize a sua marca nas respostas de IA
Permitir os crawlers de IA é o primeiro passo. O AI Tracker da SEOcrawl mostra o que acontece a seguir: monitoriza com que frequência o ChatGPT, o Claude, o Gemini e o Perplexity mencionam e citam realmente a sua marca, que prompts a ativam e como se compara aos concorrentes — tudo junto aos dados do Google Search Console, num só lugar.
Perguntas frequentes
O que é um AI bot checker?
Um AI bot checker lê o ficheiro robots.txt de um site e diz-lhe quais crawlers de IA ele atualmente permite ou bloqueia. Compara os tokens user-agent das principais empresas de IA — OpenAI (GPTBot, OAI-SearchBot, ChatGPT-User), Anthropic (ClaudeBot, Claude-SearchBot), Google (Google-Extended), Perplexity (PerplexityBot), Common Crawl (CCBot) e outros — com as regras Allow e Disallow do seu robots.txt.
Como bloqueio os crawlers de IA no robots.txt?
Adicione um grupo por crawler com uma regra Disallow, por exemplo "User-agent: GPTBot" seguido de "Disallow: /". Para bloquear vários, liste cada user-agent no seu próprio grupo. Lembre-se de que o robots.txt é indicativo: crawlers bem-comportados como o GPTBot e o ClaudeBot respeitam-no, mas não é um mecanismo de imposição, por isso não trava os bots que escolhem ignorá-lo.
Devo bloquear ou permitir os bots de IA?
Depende do seu objetivo. Bloquear os crawlers de treino (GPTBot, CCBot, Google-Extended) exclui o seu conteúdo do treino de modelos. Mas bloquear os crawlers de pesquisa por IA (OAI-SearchBot, ClaudeBot, PerplexityBot) pode manter a sua marca fora das respostas do ChatGPT, do Claude e do Perplexity, custando-lhe visibilidade e tráfego de referência. Muitos sites permitem os crawlers de pesquisa e bloqueiam apenas os de treino.
Bloquear o Google-Extended prejudica o meu posicionamento no Google?
Não. O Google-Extended só controla se o seu conteúdo é usado para treinar e fundamentar o Gemini e o Vertex AI. É separado do Googlebot, por isso bloquear o Google-Extended não tem efeito sobre como se posiciona na Google Search. É a forma limpa de recusar o treino de IA sem mexer na pesquisa orgânica.
Qual é a diferença entre bots de IA de treino, de pesquisa e a pedido?
Os bots de treino (GPTBot, CCBot, Google-Extended, Bytespider) recolhem conteúdo para treinar modelos. Os bots de pesquisa (OAI-SearchBot, Claude-SearchBot, PerplexityBot) indexam o seu site para que possa ser citado nas respostas de pesquisa por IA. Os bots de acesso a pedido (ChatGPT-User, Claude-User, Perplexity-User) recuperam uma única página em tempo real quando um utilizador pergunta ao assistente sobre ela. Bloquear cada um tem consequências muito diferentes para a visibilidade na IA.



