Tudo sobre o rastreamento no Google: como o buscador enxerga e rastreia a web (e o impacto em SEO)

É através do rastreamento de páginas que o Google entende qual é o conteúdo de uma página. Ele baixa arquivos, lê o HTML, renderiza as páginas, interpreta as informações e decide se quer ou não indexá-la.

Ou seja, o rastreamento é uma parte básica da infraestrutura do SEO. Sem ele, nenhuma página aparece no buscador e não é possível gerar tráfego a partir do Google. Por isso, ele também é um dos aspectos mais importantes do SEO técnico.

Neste guia, você entenderá tudo sobre o processo, desde as informações mais básicas, até os detalhes e comportamentos mais específicos do rastreamento do Google.

As informações têm base em um artigo publicado por Ian Sorin, em documentações do Google, em documentos vazados e na experiência da equipe da SHH em otimizar o rastreamento de sites. 

O que você precisa saber sobre o rastreamento do Google

Rastreamento é o processo de acessar as páginas, baixar o conteúdo e interpretar o que está ali. O Google faz isso todos os dias, com bilhões de páginas da web, mas não rastreia todas. Ele tem vários mecanismos para identificar quais realmente valem a pena.

Quem realiza este trabalho é o Googlebot, robô com versões para todos os produtos Google – na verdade, uma “central de robôs” que faz o rastreamento para todos os sistemas do Google.

Ele realiza todas as etapas de forma automática, sem intervenção humana – download de arquivos, renderização, definição de quais páginas acessar, quantas vezes, com qual frequência, etc.

Em SEO, o ideal é que as suas páginas mais importantes sejam rastreadas, e que o seu site seja rastreado com frequência. Se isso não acontece, sua visibilidade fica limitada no buscador.

Recentemente, o Google atualizou a sua documentação sobre rastreamento e elencou um resumo sobre o processo:

  • O Google rastreia sites o tempo inteiro para indexar páginas novas e detectar atualizações em páginas antigas;
  • Se o Google rastreia o seu site com frequência, quer dizer que ele tem valor para o buscador;
  • O Google renderiza páginas, para “ver” o conteúdo igual um ser humano faria. Para páginas pesadas, pode ser necessário rastrear várias vezes;
  • Se um site fica lento ou dá erro, é rastreado menos vezes;
  • Os rastreadores do Google nunca leem paywall sem permissão;
  • Sites podem controlar qual conteúdo é rastreado;
  • O Google nunca viola as diretrizes. 

Para a maioria dos sites, basta saber isso. 

Mas, para quem está estudando SEO técnico à fundo, identificou algum erro no Search Console, ou cuida de um domínio complexo, vale a pena conhecer os detalhes e bastidores do rastreamento.

As etapas do rastreamento do Google

Sempre que o Googlebot descobre uma página, ele processa o conteúdo e decide se quer indexar ou não.

Podemos dividir esse processo em 5 passos:

  • Uma URL é descoberta;
  • Ela é colocada em uma fila de rastreamento;
  • O Googlebot faz uma requisição;
  • A página é renderizada;
  • O Google adiciona (ou não) a URL ao seu índice.

O processo ocorre em escala, para uma infinidade de novas URLs todos os dias. Veja abaixo um resumo de cada etapa. 

1. Descoberta de URLs

A descoberta de URLs significa que o Google sabe da existência de uma URL. Ele pode escolher ou não rastreá-la. 

Nem todas as URLs são descobertas. E nem todas as URLs que são descobertas são rastreadas. Por sua vez, nem todas as URLs rastreadas são indexadas… 

Você pode acompanhar o status das suas URLs no relatório de páginas detectadas, mas não indexadas do Search Console.

Como as URLs são descobertas: por links internos com atributo follow, sitemaps, backlinks e submissão de URLs dentro do Search Console.

O que atrapalha a descoberta: páginas sem links internos, sitemap quebrado, links com atributo nofollow, páginas muito longe da homepage do site.

2. Lista de rastreamento

Depois de descobrir a URL, ela é adicionada a uma fila preferencial. Ali, o Google decidirá se vale a pena rastrear, quando começar o processo e por onde começar.

Como a seleção é feita: o Google prioriza páginas de qualidade, populares, que recebem muitas atualizações e publicadas por sites confiáveis. Mais adiante falaremos em detalhes sobre esses critérios.

O que atrapalha a seleção: baixa reputação do site ou do conteúdo que está sendo rastreado, falta de recursos do Google para rastreamento (afeta apenas sites grandes).

3. Requisição de rastreamento

Quando decide rastrear uma página, o Googlebot faz uma requisição para o servidor. É o pedido para acessar a página.

É aqui que ele faz o download do conteúdo – por meio de arquivos HTML e de recursos necessários para carregar a página, como CSS e JavaScript.

🔗 O Googlebot rastreia apenas os primeiros 2 MB de arquivos (ou 64 MB, no caso de PDFs). A maioria das páginas da web é muito menor do que isso. 

Mas, se a página for maior do que isso, tudo o que está depois dos primeiros 2 MB fica completamente invisível para o Googlebot.

O que o Google considera: status HTTP da página (200, 301, etc.), tempo de resposta do servidor, tamanho dos arquivos e controles de privacidade. 

O que impede o rastreamento: erros de servidor (erro 5xx), servidor lento, bloqueio ao user agent do Googlebot e cadeias de redirecionamento.

4. Renderização

Após processar o conteúdo, o Google renderiza a página. Isto é, ele gera uma visualização semelhante (ou idêntica) ao que um visitante humano receberia.

Nesta etapa, podem ocorrer diversos tipos de erro:

  • Googlebot renderizar uma versão incompleta da página;
  • Problemas para visualizar todo o conteúdo;
  • Versão renderizada para o robô ser diferente da exibida para humanos.

Os recursos necessários: arquivo HTML, CSS, JS, fontes, folhas de estilo, etc. 

O que atrapalha o processo: JavaScript mal implementado. Códigos de baixa qualidade impedem que o Googlebot veja certos elementos da página, o que gera uma representação incompleta dela.

Conteúdo escondido atrás de interações (só aparece se você clicar ou rolar a página) não é visto, pois o Googlebot não executa nenhuma ação durante o rastreamento. 

🔗 Guia completo de JavaScipt para SEO, com os passos para prevenir e corrigir problemas. 

5. A indexação

O último passo é decidir se a página será ou não indexada. É quando a URL entra no índice do Google, para que possa ser exibida como um resultado de busca. 

E nem todas são indexadas. Algumas simplesmente não são candidatas, o que é normal. É o caso de páginas internas, que não têm valor para o Google. Outras até poderiam ser indexadas, mas o Google pode avaliá-las como pouco relevantes em comparação com o que já está no índice.

No Search Console, as URLs que recebem um “não” aparecem como rastreadas, mas não indexadas.

O que influencia a decisão: qualidade, utilidade e originalidade do conteúdo, valor geral da URL, sinais de duplicação de conteúdo. 

O que pode impedir a indexação: conteúdo duplicado, de baixa qualidade, com erro soft 404, problemas na tag canonical ou indisponibilidade de servidor.

🔗 Guia completo sobre a indexação de páginas no Google.

O Google não rastreia toda a internet

A internet tem bilhões de páginas. O Google não consegue (e nem quer) acessar todas. Em vez disso, ele prefere gastar recursos com URLs que são realmente importantes e úteis para os visitantes.

Este é um posicionamento público, compartilhado inclusive por engenheiros da big tech – como Gary Illyes, que comentou o assunto em 2024 no LinkedIn. Ele explicou que parte do seu trabalho é fazer com que o Google escolha com mais inteligência onde gastar os seus recursos computacionais.

Alguns anos antes, Martin Splitt, engenheiro e porta-voz da empresa, confirmou que o Google usa machine learning para tentar prever as URLs mais relevantes.

Há teorias de que outros produtos Google, como o Discover, usam métodos semelhantes. Em ambos os casos, os critérios são secretos – mas supõe-se que envolvam dados de cliques

A frequência de rastreio

Quando o Google encontra boas URLs, ele as rastreia várias vezes ao longo do tempo. Isso é necessário para identificar atualizações de conteúdo e para exibir as informações mais recentes na SERP. É assim que o Google consegue mostrar as notícias sempre atualizadas, por exemplo.

Há um sistema de “agendamento”, no qual um algoritmo define a periodicidade de rastreio para cada site ou página. Não é um número fixo, nem o mesmo para todos os sites.

Segundo uma pesquisa feita pelo especialista em SEO Alexis Rylko, dois fatores principais fazem um site ser mais ou menos rastreado:

  • Qualidade da página e alinhamento às diretrizes de conteúdo útil do Google;
  • Autoridade, mensurada por meio de links internos e backlinks.

Segundo Gary Illyes, engenheiro do Google:

“O agendamento [de rastreio] é muito dinâmico. Assim que identificamos sinais vindo do índice de que a qualidade de conteúdo aumentou em diversas URLs, aumentamos a demanda [para aquele site]”.

E se a frequência de rastreamento for baixa?

Há indícios de que as páginas somem do índice se não forem rastreadas com frequência. Segundo a mesma pesquisa feita por Alexis, o prazo é de 130 dias. 

A análise comparou logs de 5 sites, via API do Screaming Frog. O resultado foi a chamada “regra dos 130 dias”:

  • A indexação das páginas depende da frequência de rastreio;
  • Cada página tem a própria frequência de rastreamento. Se a frequência fica menor do que 130 dias, aquela URL é removida do índice;
  • Essa janela de 130 dias deve ser usada para otimizar o conteúdo e aumentar o seu valor.

Quais páginas o Google prefere rastrear?

O Google sempre dará prioridade para rastrear URLs novas, atualizadas, populares ou de alta qualidade. Os seus sistemas foram desenvolvidos para identificar – e até tentar prever – quais sites e páginas atendem a esses requisitos.

De acordo com as documentações de rastreamento do Google, documentações vazadas e o processo contra monopólio da big tech, os elementos mais importantes são: 

  • Alta qualidade (técnica e de conteúdo);
  • Engajamento (medido principalmente por cliques);
  • Spam (para ignorar domínios que sabidamente são ruins);
  • Performance de servidor (elemento específico de qualidade técnica, que facilita o rastreamento).

Esses sinais são analisados a nível de domínio e de página.

Qualidade geral do site

A qualidade é sempre um conceito abstrato quando falamos do Google. Não há documentações claras ou definitivas – certamente para reduzir as tentativas de abuso dos algoritmos.

De acordo com a documentação oficial do Google, vazamentos de 2024 e comentários de porta-vozes, os fatores que podem influenciar o processo são:

  • Reputação e histórico do domínio, para evitar sites reconhecidamente ruins;
  • Qualidade dos redirecionamentos, monitorando especificamente a demora para chegar à página de destino e cadeias de redirecionamento;
  • Status do servidor, incluindo tempo de resposta, taxas de erros e status de resposta 5xx;
  • Histórico da URL, para priorizar conteúdos atualizados com frequência, ou marcados como query deserve freshness (QDF), em pesquisas que devem ser respondidas com informações em tempo real;
  • Atualização de conteúdo: páginas atualizadas recebem prioridade. O Google armazena um histórico das versões de cada URL, para entender o que mudou e qual o escopo da atualização; 
  • Qualidade de conteúdo, para tentar prever e identificar conteúdo útil, que deve receber prioridade em relação aos sites que publicam informações de menor qualidade. 

Engajamento de visitantes

URLs populares são rastreadas com mais frequência. Segundo o Google, o engajamento define a “demanda de rastreamento” de cada URL. Páginas com muitas visitas recebem demanda maior, para que seu conteúdo fique sempre atualizado no índice. 

Da mesma forma, é possível inferir que conteúdos pouco populares recebam cada vez menos atenção do Googlebot com o passar do tempo. E que sites novos podem demorar um pouquinho “engrenar”, pois não há um histórico pelo qual o sistema possa se guiar.

A exceção são migrações – quando o Google percebe um site mudando de lugar, pode aumentar temporariamente a demanda de rastreamento do site. 

Presença de spam

Este é um reflexo das métricas de qualidade e engajamento. Se o Google identifica que o site posta muito spam, para de rastrear

Além do óbvio, que é a violação das políticas de spam do buscador, o Google pode observar:

  • Perfil de backlinks do site;
  • Padrões de conteúdo, como duplicado, gerado massivamente com IA, ou raso;
  • Sinais negativos de interação, como taxa de rejeição alta, baixo engajamento e sessões que duram poucos segundos.

Importante: o Google não tem uma “pontuação de spam”. E nem leva pontuações de terceiros em consideração para rastreamento, indexação ou classificação de páginas.

Performance do servidor

Se o servidor responde bem, o Google rastreia mais. Se responde mal, rastreia menos. A lógica é preservar recursos e não sobrecarregar os sites com requisições.

Os principais fatores são:

  • Tempo de resposta: se o servidor demorar demais para processar a requisição, o Googlebot desiste;
  • Status de resposta: erros 5xx indicam que uma requisição não pôde ser processada.

Se forem problemas pontuais, não tem problema: o Googlebot simplesmente volta mais tarde. Mas, se forem recorrentes, menos recursos serão alocados para o site, pois os sistemas entendem que aquele site fica sobrecarregado com facilidade.

O conceito de crawl budget

Para sites maiores, outro elemento entra na conta: os limites do próprio Google. Nesses casos, o Google define uma “cota de rastreamento”, ou crawl budget, e rastreia o site até que ele se esgote.

O crawl budget pode ser definido como a quantidade de páginas que o Google pode (e quer) rastrear. Se o site tiver alta qualidade e o servidor responder bem, a quantidade será maior. 

Geralmente, essa cota só importa para sites realmente grandes, a partir de milhares de URLs. Nos domínios menores, os recursos padrão do Google já dão conta de rastrear tudo o que precisa mesmo. 

🔗 Para mais detalhes, leia o guia completo sobre crawl budget da SHH.

Recursos para gerenciar o rastreamento do seu site

É impossível influenciar diretamente o comportamento do Googlebot, mas há formas de definir o que deve ser rastreado e facilitar a descoberta de páginas. Os principais recursos para isso são robots.txt, diretivas no cabeçalho HTTP, meta tags e sitemap.

Nos sites grandes, isso é importante para preservar o crawl budget. Se você deixar o rastreador agir livremente, ele provavelmente gastará recursos com páginas inúteis. Em vez disso, você deve usar 

Nos sites pequenos, é interessante para facilitar a indexação do seu conteúdo mais importante.

Veja mais sobre cada recurso abaixo – lembrando que as meta tags na verdade controlam a indexação. É diferente, mas muita gente confunde, então vale a pena dar uma olhadinha junto.

Robots.txt

O robots.txt é um arquivo simples de texto com as orientações para rastreadores que entrarem no seu site. Serve para bloquear rastreadores, ou impedir certas partes do site de serem rastreadas.

Você pode bloquear diretórios completos, como as suas páginas internas, ou versões de páginas para feeds RSS. 

No início do ano, muitos portais de notícias usaram o robots.txt para bloquear rastreadores de IA. É interessante ter cautela com esse tipo de abordagem, pois se o rastreador não pode ler um conteúdo, ele não ranqueia.

🔗 Veja o guia do arquivo robots.txt no blog da SHH

Meta tags

As meta tags são orientações enviadas no cabeçalho HTML da página. Elas não limitam o rastreamento, mas oferecem instruções específicas sobre como as páginas devem ou não aparecer no Google.

Você pode, por exemplo, usar tags como noindex para proibir a indexação. E a tag nofollow para pedir que o robô não siga nenhum link, o que limita a descoberta de novas páginas e, por consequência, o rastreamento.

Diretivas no cabeçalho HTTP

As X-Robots Tags são instruções enviadas diretamente pelo servidor. São usadas para orientar o rastreamento de arquivos que não contêm HTML, como PDF e imagens, ou de páginas com conteúdo dinâmico. 

Elas ficam no cabeçalho da página e são comunicadas quando ocorre uma requisição de rastreamento, antes de qualquer conteúdo ser carregado. 

Assim como as meta tags, elas não impedem o rastreamento, mas limitam a exibição das páginas de todo o site. Até os atributos são similares, como nofollow e noindex.

Sitemaps

Sitemaps são arquivos XML com a lista de URLs do seu site. Esse arquivo é frequentemente usado pelo Google para descobrir novas páginas. Logo, se existe uma página importante, que você quer que seja rastreada, inclua no seu sitemap. Assim fica mais fácil para o Google encontrar.

Como otimizar o rastreamento do seu site?

Otimizar o rastreamento significa garantir que o Google está usando seus recursos nas páginas certas. Diretivas para rastreadores e sitemaps são apenas parte do trabalho. Há uma série de outras ações que podem ser feitas para direcionar o Googlebot aos destinos certos.

Veja abaixo as principais, extraídas das documentações oficiais do Google:

  • Gerencie as suas URLs: torne as URLs importantes facilmente acessíveis, via links internos e sitemap;
  • Elimine conteúdo duplicado: consolide o conteúdo em uma única URL (a que tiver maior autoridade), evitando que o Googlebot perca tempo rastreando a mesma coisa duas vezes;
  • Bloqueie URLs inúteis no robots.txt: por exemplo, páginas /wp-admin, /search?, URLs de navegação facetada, feeds de produtos, diretórios privados, entre outros;
  • Não combine robots.txt e tag noindex: essas duas diretivas se anulam. Se você bloquear a página no robots.txt, a tag noindex nem será lida; 
  • Retorne status 404 ou 410 para páginas removidas: se o conteúdo não existe mais, retorne esses status em vez de fazer um redirecionamento genérico;
  • Elimine páginas soft 404: páginas com erro soft 404 ainda são rastreadas, o que gasta recursos de forma desnecessária;
  • Mantenha o sitemap sempre atualizado: o Google visita o sitemap com frequência. Geralmente, sitemaps gerados automaticamente por plugins sempre atualizam de forma periódica;
  • Gerencie seus redirecionamentos: evide cadeias longas de redirecionamento (+10 links);
  • Melhore a performance do seu site: se as páginas demoram para carregar, o rastreamento fica comprometido, pois consome mais recursos do Google;
  • Certifique-se de que o conteúdo é visível: muitas páginas são visíveis para humanos, mas não para robôs. Se o Googlebot não conseguir processar o HTML e os recursos necessários, a página não será rastreada.

Uma boa dica é simular como o Googlebot visualiza a página. É possível fazer isso editando algumas configurações no Chrome DevTools. O vídeo abaixo mostra como: 

Como acompanhar o rastreamento no Search Console

O relatório de estatísticas de rastreamento traz os principais dados sobre como o Googlebot visita o seu site.

Já temos um guia completo sobre o relatório aqui no site da SHH, então vamos passar apenas pelo básico:

  • Acesse pelo menu configurações > estatísticas de rastreamento;
  • Acompanhe principalmente o total de requisições, tamanho de download e tempo médio de resposta;
  • Atente-se para a presença de erros 4xx e 5xx. A maioria das suas páginas deve retornar status HTTP 200 (OK);
  • Você também pode ver o propósito do rastreamento, se é descoberta de URLs ou atualização de uma já conhecida.

Na maioria dos casos, não há necessidade de monitorar ativamente esse relatório. Ele é mais útil para resolver problemas mesmo. Passe nele de vez em quando e atente-se para picos e quedas nos principais dados. 

__

Por hoje é isto! O post ficou longo, mas é porque o rastreamento no Google é mais complexo do que parece. 

Os diagnósticos e as soluções de problemas, também. Se você precisa de ajuda para melhorar a saúde técnica do seu site, entre em contato com a SEO Happy Hour! Oferecemos serviços de SEO técnico e on-page para que as suas páginas sejam rastreadas, indexadas e apareçam com consistência nos buscadores e sistemas de IA. 

  • Elyson Gums

    Elyson Gums

    Elyson Gums é redator na SEO Happy Hour. Trabalha com redação e produção de conteúdo para projetos de SEO e inbound marketing desde 2014, em segmentos B2C e B2B. É bacharel em Jornalismo (Univali/SC) e mestre em Comunicação Social (UFPR).

Comentários

0 Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *