Fases e Elementos do Processo de Rastreamento

Rastreamento, spiders, bots — esses são termos com os quais qualquer SEO está acostumado a lidar no dia a dia, e eles carregam um peso essencial em qualquer estratégia de ranqueamento, porque, se essa fase falhar, o resto também falhará.
Vamos ver em detalhes em que consiste um processo de rastreamento web.
O que significa rastrear um site?
Antes de prosseguir, vamos definir o processo de rastrear um site, mostrando a importância que ele tem dentro de qualquer tentativa de aparecer nos resultados de busca do Google.
Rastrear um site é entendido como o processo pelo qual as spiders ou crawlers percorrem as diferentes páginas de um site, coletando todas as informações acessíveis, para armazená-las, processá-las e posteriormente classificá-las.
Vale destacar alguns termos fundamentais dentro da definição que acabamos de apresentar:
-
Percurso: Pense em uma aranha (spider), de fato. Esse simpático inseto tem que passar pelo maior número possível de páginas para extrair o máximo de informação que puder. Para ir de uma página a outra, ele faz isso através dos links internos que as conectam. Daí a importância de ter um link interno correto que permita a essas spiders "descobrir" — se não a totalidade — pelo menos as páginas mais relevantes para nós.
-
Acessibilidade: A informação tem que ser acessível a essas spiders. Ou seja, se de alguma forma estamos limitando seu acesso intencionalmente ou por engano, estaremos impedindo que as spiders possam processar todo o conteúdo e, portanto, entendê-lo e finalmente classificá-lo.
Esse bloqueio ou limitação do conteúdo da página pode ocorrer de várias maneiras diferentes, que tentaremos explicar mais adiante neste post.
Os crawlers
Falamos sobre spiders, também conhecidas como crawlers ou bots. Podemos defini-las como programas que analisam os documentos do nosso site, ou seja, são como "bibliotecários" que buscam, classificam e organizam. Sua função principal é, portanto, construir bases de dados. Existem vários tipos, dependendo do tipo de informação que coletam. Vamos mencionar alguns dos mais comuns.
Googlebot: A spider encarregada de rastrear nosso conteúdo e categorizá-lo dentro dos resultados orgânicos (SERPs). Para os SEOs, é a mais importante.
Dentro desse tipo, podemos distinguir alguns subtipos:
-
Googlebot (smartphones): Versão mobile
-
Googlebot (versão desktop): Versão desktop
-
Googlebot Images: Encarregado de rastrear imagens
-
Googlebot News: Para notícias
-
Googlebot Video: Agora é a vez dos vídeos
Exemplo de um bot identificado em nossos logs:
Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/W.X.Y.Z‡ Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Eles não são os únicos — existem outros como Adsbot, Adsense, etc. Tendo já mencionado os relevantes para o setor de SEO, diferenciá-los do resto não é o foco deste artigo, mas você pode encontrar informações adicionais no seguinte link oficial do Google.
Fases do processo de rastreamento e indexação do Google
Agora que sabemos o que é rastreamento, quem é encarregado dessa função, e discutimos o processo, vamos vê-lo em mais detalhes específicos.
Primeira fase: rastreamento e classificação
O processo pelo qual nossas páginas aparecem nos resultados do Google passa por uma primeira fase de rastreamento, como vimos, realizada pelas spiders (crawlers), para que leiam, interpretem, indexem e classifiquem nosso conteúdo.
É essa nova palavra que queremos analisar em detalhes, classificar. O Google tem que entender perfeitamente nosso conteúdo, de forma simples e rápida, porque, como veremos mais adiante, o Google passa um tempo específico em nosso site, e nesse tempo deve "entender" nosso conteúdo e associá-lo às diferentes intenções de busca dos usuários.
Por isso, no SEO moderno, ouve-se tanto a palavra "Search Intent", já que o Google a levará em conta nessa classificação e definirá a posição que nossas páginas ocupam nos rankings das SERPs.
Por isso, o processo de rastreamento tem que ser limpo, simples, rápido, sem obstáculos, etc., para que tudo fique claro e sejamos classificados corretamente.
Segunda fase: Indexação
Não podemos esquecer da fase de indexação, que precede a classificação e também desempenha um papel fundamental, já que será o passo em que o Google adiciona nosso conteúdo à sua base de dados, ou seja, indexa-o.

Bloqueio dos robôs do Google
Mencionamos anteriormente que existem maneiras pelas quais poderíamos estar limitando o acesso dessas spiders ao nosso conteúdo. Para isso, existe um elemento de peso vital no SEO conhecido como robots.txt.
O arquivo robots.txt é um arquivo de texto que enviamos para nosso servidor, no qual damos instruções precisas às diferentes spiders para permitir ou bloquear o rastreamento de URLs em nosso site. Esse bloqueio pode ser aplicado:
-
a todo o domínio
-
a um caminho específico
-
a uma URL específica
-
ou a um conjunto de URLs que correspondam a um determinado padrão.
Vejamos um exemplo de configuração desse arquivo:
User-agent: *
Disallow: /wp-admin/
Allow: wp-admin/admin-ajax.php
Sitemap: /sitemap.xml
Como podemos ver, ele tem uma primeira linha em que especificamos o user-agent (o nome do crawler que queremos bloquear ou permitir, dentre os que vimos anteriormente), seguido pelas ordens "disallow" para proibir a entrada ou "allow" para permiti-la.
No caso específico que vemos, ao indicar com um *, estamos dizendo "todos os crawlers", sem exceção. Estamos proibindo-os de entrar no caminho /wp-admin/, mas dentro desse caminho queremos permitir que entrem em /admin-ajax.php.
Uma configuração incorreta desse arquivo pode fazer com que estejamos bloqueando partes importantes do nosso conteúdo. É um erro comum ter o site inteiro bloqueado enquanto está sendo desenvolvido e depois esquecer de remover esse bloqueio depois de colocá-lo em produção, tornando-o inacessível ao Google.
Outro problema que as spiders do Google podem encontrar ao rastrear nosso conteúdo é não conseguir seguir os links internos que temos em nosso site, e portanto não acessar o restante das URLs. Isso acontece quando usamos elementos javascript em vez de "href" nesses links. Essa prática é muito comum, já que usar JS tem muitas vantagens em nível de usuário, mas, se não for usado corretamente, e somado a links internos, o Google pode não conseguir segui-los.
No mundo do SEO, isso é conhecido como "ofuscação de links". Até hoje, é um debate aberto se o Google é capaz de rastrear e renderizar páginas feitas em JS corretamente.
Códigos de resposta do servidor
Para continuar entendendo bem esse processo, não podemos deixar de lado um conceito com o qual os SEOs têm que lidar diariamente, os códigos de resposta do servidor.
Antes, vimos o ciclo pelo qual o Google nos encontra, mas como isso acontece? Um usuário realiza uma busca (uma query) no Google. O mecanismo de busca vai à sua base de dados e mostra os resultados mais relevantes (SERPs), conforme a classificação feita, para essa busca.
Uma vez que o usuário vê os diferentes resultados (impressões), ele clica em um deles, aquele que, em seu julgamento, melhor se adapta ao que precisa. Nesse momento, entra em jogo a requisição do Google ao servidor onde o site está hospedado, para que ele "sirva" o conteúdo.
Quando isso ocorre, a resposta do servidor é produzida por meio do código correspondente. Vamos nomear os mais relevantes que, como SEOs, devemos levar em conta:
-
200: Esse código de resposta é o que diz ao Google que a página existe, que tem conteúdo e que não há problema em mostrá-la. É o mais desejado pelos SEOs, desde que o conteúdo dessa página com código 200 seja ótimo.
-
30x: A família de códigos de status 30x corresponde a redirecionamentos. Os mais notáveis são 301 (permanente), 302 e 307 (temporários). Basicamente, eles dizem ao Google "ei, essa URL A que você solicitou já não é mais essa, é essa outra URL B". Existem mais, mas não são o foco do conceito que estamos desenvolvendo. É importante saber que, como SEOs, os preferidos são os 301, que transferem toda a autoridade.
Leitura recomendada: Tutorial sobre redirecionamentos 301
-
40X: Códigos de erro. Os menos desejados pelos SEOs. O mais comum é o famoso 404. Quando esse código aparece, estamos dizendo ao Google em resposta à sua requisição de uma URL que ela não existe mais e, portanto, é um erro.
-
410: Quisemos destacá-lo da família 40x por seu valor de SEO. Quando usamos esse código, em resposta a uma requisição do servidor do Google por uma URL, estamos dizendo a ele que ela "se foi para sempre". É interessante porque, ao contrário do 404, o Google entende que ela nunca mais estará lá e parará de tentar rastreá-la, enquanto com o 404, ele a rastreará novamente pensando que podemos querer corrigi-la.
-
50x: Esse tipo de resposta está vinculado a erros do servidor. Quando nossa máquina falha por algum motivo, e o Google tenta solicitar o conteúdo de alguma URL de nós, se o servidor falhar, ele retorna um código de status 505.
Crawl Budget
A esta altura do post, ainda precisamos abordar um termo que se popularizou há alguns anos no mundo do SEO, conhecido como crawl budget.
O crawl budget refere-se ao tempo que as spiders do Google passam rastreando um site e todas as suas URLs. É, como dissemos antes, um tempo finito. Daí a importância de ter nosso site otimizado, para facilitar que ele veja as páginas mais relevantes do nosso site nesse tempo.
Esse tempo que os crawlers passam percorrendo nosso site não é um valor fixo, ele crescerá ou diminuirá dependendo de aspectos como a frequência com que atualizamos o conteúdo, a autoridade do nosso domínio (popularidade), etc.
Quanto maior a qualidade do nosso site, maior a autoridade e mais conteúdo fresco, mais relevante o Google nos considerará e alocará mais budget para nos rastrear.
Com programas de rastreamento como o Screaming Frog, realizamos rastreamentos idealmente simulados do nosso site, ou seja, como se as spiders tivessem todo o tempo do mundo para percorrer cada uma das nossas URLs.
Mas não é assim que funciona quando falamos do Googlebot — pelo contrário, toda vez que o Google visita nosso site, ele visitará algumas URLs mais do que outras. Na verdade, pode haver algumas que ele nem visita. Vamos analisar isso com o que é conhecido como os logs do servidor (registros de quais URLs o Google rastreou, com que frequência fez isso e quantas vezes em um determinado período).
Até aqui, toda a análise sobre entender o que é rastreamento e os diferentes elementos que fazem parte do sistema de rastreamento do Google.
Alguma dúvida ou sugestão? Como sempre... adoraríamos ouvir de você!
Autor: David Kaufmann

Passei os últimos 10 e tantos anos completamente obcecado por SEO — e, sinceramente, não quereria que fosse de outra forma.
A minha carreira atingiu um novo patamar quando trabalhei como Senior SEO Specialist na Chess.com — um dos 100 sites mais visitados de toda a internet. Operar nessa escala, em milhões de páginas, dezenas de idiomas e numa das SERPs mais competitivas que existem, ensinou-me coisas que nenhum curso ou certificação jamais poderia. Essa experiência mudou a minha perspetiva sobre o que é realmente um grande trabalho de SEO — e tornou-se a base de tudo o que construí desde então.
Foi a partir dessa experiência que fundei a SEO Alive — uma agência para marcas que levam a sério o crescimento orgânico. Não estamos aqui para vender dashboards e relatórios mensais. Estamos aqui para construir estratégias que realmente fazem a diferença, combinando o melhor do SEO clássico com o novo e empolgante mundo da Generative Engine Optimization (GEO) — garantindo que a tua marca apareça não só nos links azuis do Google, mas também dentro das respostas geradas por AI que o ChatGPT, o Perplexity e o Google AI Overviews entregam a milhões de pessoas todos os dias.
E como não consegui encontrar uma ferramenta que lidasse corretamente com esses dois mundos, construí uma eu mesmo — a SEOcrawl, uma plataforma enterprise de SEO intelligence que reúne rankings, auditorias técnicas, monitoramento de backlinks, saúde do crawl e tracking de visibilidade de marca em AI, tudo num só lugar. É a plataforma que sempre desejei que existisse.
Descubra mais conteúdos deste autor

