Robots.txt AI Bot Checker: veja quais crawlers de IA permite

Cole o seu domínio e nós lemos o seu robots.txt, depois mostramos — bot a bot — se permite ou bloqueia GPTBot, ClaudeBot, Google-Extended, PerplexityBot e todos os outros crawlers de IA importantes. Descubra se está visível na pesquisa por IA antes dos seus concorrentes. Sem registo.

Domínio ou URL a verificar

Grátis, sem registo. Lemos o seu robots.txt e mostramos quais crawlers de IA — GPTBot, ClaudeBot, Google-Extended, PerplexityBot e mais — você atualmente permite ou bloqueia.

Porque os bots de IA no seu robots.txt importam para a visibilidade

O seu robots.txt é a primeira coisa que um crawler lê, e hoje as empresas de IA têm os seus próprios crawlers com nomes de user-agent específicos. Só a OpenAI usa GPTBot para treino, OAI-SearchBot para o ChatGPT Search e ChatGPT-User para acessos a pedido. Anthropic, Google, Perplexity, Common Crawl e outros têm cada um os seus. Uma única regra Disallow decide se o seu conteúdo pode alimentar e ser citado por estes sistemas.

Errar num sentido ou no outro custa-lhe: bloqueie os crawlers de pesquisa e a sua marca desaparece das respostas de IA; deixe os crawlers de treino abertos quando pretendia recusar e o seu conteúdo treina modelos de graça. Uma verificação rápida diz-lhe exatamente em que ponto está em cada bot de IA importante.

Como ler o seu resultado

Permitido

O crawler pode aceder à raiz do seu site. Para bots de pesquisa por IA como OAI-SearchBot, ClaudeBot e PerplexityBot, é isto que o mantém elegível para ser citado nas respostas de IA.

Parcial

O crawler consegue chegar ao seu site, mas o seu robots.txt proíbe-lhe alguns caminhos. Normalmente está bem — apenas confirme que não está a esconder páginas que quer destacar na pesquisa por IA.

Bloqueado

Uma regra Disallow: / trava este crawler logo à entrada. Intencional para recusar o treino, mas um problema se for um crawler de pesquisa ao qual queria continuar visível.

Erros comuns no robots.txt — e como corrigi-los

Bloquear a pesquisa por IA por engano.

Um Disallow genérico que apanha o OAI-SearchBot ou o PerplexityBot remove-o silenciosamente das respostas de IA. Permita os crawlers de pesquisa; bloqueie apenas os bots de treino se for mesmo necessário.

Depender de User-agent: * para a IA.

Muitos crawlers de IA ignoram o grupo com wildcard e só obedecem a uma regra que nomeie o seu token exato. Direcione cada bot de IA pelo seu user-agent específico.

Confundir Google-Extended com Googlebot.

Bloquear o token errado ou deixa o treino de IA ativo ou desindexa-o por engano da Pesquisa. Use Google-Extended para a IA e Googlebot para a Pesquisa.

Confiar no robots.txt como firewall.

O robots.txt é indicativo — não trava os crawlers que escolhem ignorá-lo nem o scraping feito por terceiros. Use bloqueio do lado do servidor para os bots que tem mesmo de travar por completo.

Monitorize a sua marca nas respostas de IA

Permitir os crawlers de IA é o primeiro passo. O AI Tracker da SEOcrawl mostra o que acontece a seguir: monitoriza com que frequência o ChatGPT, o Claude, o Gemini e o Perplexity mencionam e citam realmente a sua marca, que prompts a ativam e como se compara aos concorrentes — tudo junto aos dados do Google Search Console, num só lugar.

Experimente o SEOcrawl grátis →

AI Tracker →O que é o llms.txt →Ver preços →

Perguntas frequentes

O que é um AI bot checker?

Um AI bot checker lê o ficheiro robots.txt de um site e diz-lhe quais crawlers de IA ele atualmente permite ou bloqueia. Compara os tokens user-agent das principais empresas de IA — OpenAI (GPTBot, OAI-SearchBot, ChatGPT-User), Anthropic (ClaudeBot, Claude-SearchBot), Google (Google-Extended), Perplexity (PerplexityBot), Common Crawl (CCBot) e outros — com as regras Allow e Disallow do seu robots.txt.

Como bloqueio os crawlers de IA no robots.txt?

Adicione um grupo por crawler com uma regra Disallow, por exemplo "User-agent: GPTBot" seguido de "Disallow: /". Para bloquear vários, liste cada user-agent no seu próprio grupo. Lembre-se de que o robots.txt é indicativo: crawlers bem-comportados como o GPTBot e o ClaudeBot respeitam-no, mas não é um mecanismo de imposição, por isso não trava os bots que escolhem ignorá-lo.

Devo bloquear ou permitir os bots de IA?

Depende do seu objetivo. Bloquear os crawlers de treino (GPTBot, CCBot, Google-Extended) exclui o seu conteúdo do treino de modelos. Mas bloquear os crawlers de pesquisa por IA (OAI-SearchBot, ClaudeBot, PerplexityBot) pode manter a sua marca fora das respostas do ChatGPT, do Claude e do Perplexity, custando-lhe visibilidade e tráfego de referência. Muitos sites permitem os crawlers de pesquisa e bloqueiam apenas os de treino.

Bloquear o Google-Extended prejudica o meu posicionamento no Google?

Não. O Google-Extended só controla se o seu conteúdo é usado para treinar e fundamentar o Gemini e o Vertex AI. É separado do Googlebot, por isso bloquear o Google-Extended não tem efeito sobre como se posiciona na Google Search. É a forma limpa de recusar o treino de IA sem mexer na pesquisa orgânica.

Qual é a diferença entre bots de IA de treino, de pesquisa e a pedido?

Os bots de treino (GPTBot, CCBot, Google-Extended, Bytespider) recolhem conteúdo para treinar modelos. Os bots de pesquisa (OAI-SearchBot, Claude-SearchBot, PerplexityBot) indexam o seu site para que possa ser citado nas respostas de pesquisa por IA. Os bots de acesso a pedido (ChatGPT-User, Claude-User, Perplexity-User) recuperam uma única página em tempo real quando um utilizador pergunta ao assistente sobre ela. Bloquear cada um tem consequências muito diferentes para a visibilidade na IA.

Mais ferramentas SEO grátis

Simulador SERP

Localizador e verificador de sitemap

Validador de schema

Gerador llms.txt

Verificador de title tag

Verificador de canonical