É através do rastreamento de páginas que o Google entende qual é o conteúdo de uma página. Ele baixa arquivos, lê o HTML, renderiza as páginas, interpreta as informações e decide se quer ou não indexá-la.
Ou seja, o rastreamento é uma parte básica da infraestrutura do SEO. Sem ele, nenhuma página aparece no buscador e não é possível gerar tráfego a partir do Google. Por isso, ele também é um dos aspectos mais importantes do SEO técnico.
Neste guia, você entenderá tudo sobre o processo, desde as informações mais básicas, até os detalhes e comportamentos mais específicos do rastreamento do Google.
As informações têm base em um artigo publicado por Ian Sorin, em documentações do Google, em documentos vazados e na experiência da equipe da SHH em otimizar o rastreamento de sites.
O que você precisa saber sobre o rastreamento do Google
Rastreamento é o processo de acessar as páginas, baixar o conteúdo e interpretar o que está ali. O Google faz isso todos os dias, com bilhões de páginas da web, mas não rastreia todas. Ele tem vários mecanismos para identificar quais realmente valem a pena.
Quem realiza este trabalho é o Googlebot, robô com versões para todos os produtos Google – na verdade, uma “central de robôs” que faz o rastreamento para todos os sistemas do Google.
Ele realiza todas as etapas de forma automática, sem intervenção humana – download de arquivos, renderização, definição de quais páginas acessar, quantas vezes, com qual frequência, etc.
Em SEO, o ideal é que as suas páginas mais importantes sejam rastreadas, e que o seu site seja rastreado com frequência. Se isso não acontece, sua visibilidade fica limitada no buscador.
O Google rastreia sites o tempo inteiro para indexar páginas novas e detectar atualizações em páginas antigas;
Se o Google rastreia o seu site com frequência, quer dizer que ele tem valor para o buscador;
O Google renderiza páginas, para “ver” o conteúdo igual um ser humano faria. Para páginas pesadas, pode ser necessário rastrear várias vezes;
Se um site fica lento ou dá erro, é rastreado menos vezes;
Os rastreadores do Google nunca leem paywall sem permissão;
Sites podem controlar qual conteúdo é rastreado;
O Google nunca viola as diretrizes.
Para a maioria dos sites, basta saber isso.
Mas, para quem está estudando SEO técnico à fundo, identificou algum erro no Search Console, ou cuida de um domínio complexo, vale a pena conhecer os detalhes e bastidores do rastreamento.
As etapas do rastreamento do Google
Sempre que o Googlebot descobre uma página, ele processa o conteúdo e decide se quer indexar ou não.
Podemos dividir esse processo em 5 passos:
Uma URL é descoberta;
Ela é colocada em uma fila de rastreamento;
O Googlebot faz uma requisição;
A página é renderizada;
O Google adiciona (ou não) a URL ao seu índice.
O processo ocorre em escala, para uma infinidade de novas URLs todos os dias. Veja abaixo um resumo de cada etapa.
1. Descoberta de URLs
A descoberta de URLs significa que o Google sabe da existência de uma URL. Ele pode escolher ou não rastreá-la.
Nem todas as URLs são descobertas. E nem todas as URLs que são descobertas são rastreadas. Por sua vez, nem todas as URLs rastreadas são indexadas…
Como as URLs são descobertas: por links internos com atributo follow, sitemaps, backlinks e submissão de URLs dentro do Search Console.
O que atrapalha a descoberta: páginas sem links internos, sitemap quebrado, links com atributo nofollow, páginas muito longe da homepage do site.
2. Lista de rastreamento
Depois de descobrir a URL, ela é adicionada a uma fila preferencial. Ali, o Google decidirá se vale a pena rastrear, quando começar o processo e por onde começar.
Como a seleção é feita: o Google prioriza páginas de qualidade, populares, que recebem muitas atualizações e publicadas por sites confiáveis. Mais adiante falaremos em detalhes sobre esses critérios.
O que atrapalha a seleção: baixa reputação do site ou do conteúdo que está sendo rastreado, falta de recursos do Google para rastreamento (afeta apenas sites grandes).
3. Requisição de rastreamento
Quando decide rastrear uma página, o Googlebot faz uma requisição para o servidor. É o pedido para acessar a página.
É aqui que ele faz o download do conteúdo – por meio de arquivos HTML e de recursos necessários para carregar a página, como CSS e JavaScript.
Mas, se a página for maior do que isso, tudo o que está depois dos primeiros 2 MB fica completamente invisível para o Googlebot.
O que o Google considera: status HTTP da página (200, 301, etc.), tempo de resposta do servidor, tamanho dos arquivos e controles de privacidade.
O que impede o rastreamento: erros de servidor (erro 5xx), servidor lento, bloqueio ao user agent do Googlebot e cadeias de redirecionamento.
4. Renderização
Após processar o conteúdo, o Google renderiza a página. Isto é, ele gera uma visualização semelhante (ou idêntica) ao que um visitante humano receberia.
Nesta etapa, podem ocorrer diversos tipos de erro:
Googlebot renderizar uma versão incompleta da página;
Problemas para visualizar todo o conteúdo;
Versão renderizada para o robô ser diferente da exibida para humanos.
Os recursos necessários: arquivo HTML, CSS, JS, fontes, folhas de estilo, etc.
O que atrapalha o processo: JavaScript mal implementado. Códigos de baixa qualidade impedem que o Googlebot veja certos elementos da página, o que gera uma representação incompleta dela.
Conteúdo escondido atrás de interações (só aparece se você clicar ou rolar a página) não é visto, pois o Googlebot não executa nenhuma ação durante o rastreamento.
O último passo é decidir se a página será ou não indexada. É quando a URL entra no índice do Google, para que possa ser exibida como um resultado de busca.
E nem todas são indexadas. Algumas simplesmente não são candidatas, o que é normal. É o caso de páginas internas, que não têm valor para o Google. Outras até poderiam ser indexadas, mas o Google pode avaliá-las como pouco relevantes em comparação com o que já está no índice.
O que influencia a decisão: qualidade, utilidade e originalidade do conteúdo, valor geral da URL, sinais de duplicação de conteúdo.
O que pode impedir a indexação: conteúdo duplicado, de baixa qualidade, com erro soft 404, problemas na tag canonical ou indisponibilidade de servidor.
A internet tem bilhões de páginas. O Google não consegue (e nem quer) acessar todas. Em vez disso, ele prefere gastar recursos com URLs que são realmente importantes e úteis para os visitantes.
Este é um posicionamento público, compartilhado inclusive por engenheiros da big tech – como Gary Illyes, que comentou o assunto em 2024 no LinkedIn. Ele explicou que parte do seu trabalho é fazer com que o Google escolha com mais inteligência onde gastar os seus recursos computacionais.
Há teorias de que outros produtos Google, como o Discover, usam métodos semelhantes. Em ambos os casos, os critérios são secretos – mas supõe-se que envolvam dados de cliques.
A frequência de rastreio
Quando o Google encontra boas URLs, ele as rastreia várias vezes ao longo do tempo. Isso é necessário para identificar atualizações de conteúdo e para exibir as informações mais recentes na SERP. É assim que o Google consegue mostrar as notícias sempre atualizadas, por exemplo.
Há um sistema de “agendamento”, no qual um algoritmo define a periodicidade de rastreio para cada site ou página. Não é um número fixo, nem o mesmo para todos os sites.
Autoridade, mensurada por meio de links internos e backlinks.
Segundo Gary Illyes, engenheiro do Google:
“O agendamento [de rastreio] é muito dinâmico. Assim que identificamos sinais vindo do índice de que a qualidade de conteúdo aumentou em diversas URLs, aumentamos a demanda [para aquele site]”.
E se a frequência de rastreamento for baixa?
Há indícios de que as páginas somem do índice se não forem rastreadas com frequência. Segundo a mesma pesquisa feita por Alexis, o prazo é de 130 dias.
A análise comparou logs de 5 sites, via API do Screaming Frog. O resultado foi a chamada “regra dos 130 dias”:
A indexação das páginas depende da frequência de rastreio;
Cada página tem a própria frequência de rastreamento. Se a frequência fica menor do que 130 dias, aquela URL é removida do índice;
Essa janela de 130 dias deve ser usada para otimizar o conteúdo e aumentar o seu valor.
Quais páginas o Google prefere rastrear?
O Google sempre dará prioridade para rastrear URLs novas, atualizadas, populares ou de alta qualidade. Os seus sistemas foram desenvolvidos para identificar – e até tentar prever – quais sites e páginas atendem a esses requisitos.
De acordo com as documentações de rastreamento do Google, documentações vazadas e o processo contra monopólio da big tech, os elementos mais importantes são:
Alta qualidade (técnica e de conteúdo);
Engajamento (medido principalmente por cliques);
Spam (para ignorar domínios que sabidamente são ruins);
Performance de servidor (elemento específico de qualidade técnica, que facilita o rastreamento).
Esses sinais são analisados a nível de domínio e de página.
Qualidade geral do site
A qualidade é sempre um conceito abstrato quando falamos do Google. Não há documentações claras ou definitivas – certamente para reduzir as tentativas de abuso dos algoritmos.
Reputação e histórico do domínio, para evitar sites reconhecidamente ruins;
Qualidade dos redirecionamentos, monitorando especificamente a demora para chegar à página de destino e cadeias de redirecionamento;
Status do servidor, incluindo tempo de resposta, taxas de erros e status de resposta 5xx;
Histórico da URL, para priorizar conteúdos atualizados com frequência, ou marcados como query deserve freshness (QDF), em pesquisas que devem ser respondidas com informações em tempo real;
Atualização de conteúdo: páginas atualizadas recebem prioridade. O Google armazena um histórico das versões de cada URL, para entender o que mudou e qual o escopo da atualização;
Qualidade de conteúdo, para tentar prever e identificar conteúdo útil, que deve receber prioridade em relação aos sites que publicam informações de menor qualidade.
Engajamento de visitantes
URLs populares são rastreadas com mais frequência. Segundo o Google, o engajamento define a “demanda de rastreamento” de cada URL. Páginas com muitas visitas recebem demanda maior, para que seu conteúdo fique sempre atualizado no índice.
Da mesma forma, é possível inferir que conteúdos pouco populares recebam cada vez menos atenção do Googlebot com o passar do tempo. E que sites novos podem demorar um pouquinho “engrenar”, pois não há um histórico pelo qual o sistema possa se guiar.
A exceção são migrações – quando o Google percebe um site mudando de lugar, pode aumentar temporariamente a demanda de rastreamento do site.
Presença de spam
Este é um reflexo das métricas de qualidade e engajamento. Se o Google identifica que o site posta muito spam, para de rastrear.
Além do óbvio, que é a violação das políticas de spam do buscador, o Google pode observar:
Perfil de backlinks do site;
Padrões de conteúdo, como duplicado, gerado massivamente com IA, ou raso;
Sinais negativos de interação, como taxa de rejeição alta, baixo engajamento e sessões que duram poucos segundos.
Importante: o Google não tem uma “pontuação de spam”. E nem leva pontuações de terceiros em consideração para rastreamento, indexação ou classificação de páginas.
Performance do servidor
Se o servidor responde bem, o Google rastreia mais. Se responde mal, rastreia menos. A lógica é preservar recursos e não sobrecarregar os sites com requisições.
Os principais fatores são:
Tempo de resposta: se o servidor demorar demais para processar a requisição, o Googlebot desiste;
Status de resposta: erros 5xx indicam que uma requisição não pôde ser processada.
Se forem problemas pontuais, não tem problema: o Googlebot simplesmente volta mais tarde. Mas, se forem recorrentes, menos recursos serão alocados para o site, pois os sistemas entendem que aquele site fica sobrecarregado com facilidade.
O conceito de crawl budget
Para sites maiores, outro elemento entra na conta: os limites do próprio Google. Nesses casos, o Google define uma “cota de rastreamento”, ou crawl budget, e rastreia o site até que ele se esgote.
O crawl budget pode ser definido como a quantidade de páginas que o Google pode (e quer) rastrear. Se o site tiver alta qualidade e o servidor responder bem, a quantidade será maior.
Geralmente, essa cota só importa para sites realmente grandes, a partir de milhares de URLs. Nos domínios menores, os recursos padrão do Google já dão conta de rastrear tudo o que precisa mesmo.
Recursos para gerenciar o rastreamento do seu site
É impossível influenciar diretamente o comportamento do Googlebot, mas há formas de definir o que deve ser rastreado e facilitar a descoberta de páginas. Os principais recursos para isso são robots.txt, diretivas no cabeçalho HTTP, meta tags e sitemap.
Nos sites grandes, isso é importante para preservar o crawl budget. Se você deixar o rastreador agir livremente, ele provavelmente gastará recursos com páginas inúteis. Em vez disso, você deve usar
Nos sites pequenos, é interessante para facilitar a indexação do seu conteúdo mais importante.
Veja mais sobre cada recurso abaixo – lembrando que as meta tags na verdade controlam a indexação. É diferente, mas muita gente confunde, então vale a pena dar uma olhadinha junto.
Robots.txt
O robots.txt é um arquivo simples de texto com as orientações para rastreadores que entrarem no seu site. Serve para bloquear rastreadores, ou impedir certas partes do site de serem rastreadas.
Você pode bloquear diretórios completos, como as suas páginas internas, ou versões de páginas para feeds RSS.
As meta tags são orientações enviadas no cabeçalho HTML da página. Elas não limitam o rastreamento, mas oferecem instruções específicas sobre como as páginas devem ou não aparecer no Google.
Você pode, por exemplo, usar tags como noindex para proibir a indexação. E a tag nofollow para pedir que o robô não siga nenhum link, o que limita a descoberta de novas páginas e, por consequência, o rastreamento.
Diretivas no cabeçalho HTTP
As X-Robots Tags são instruções enviadas diretamente pelo servidor. São usadas para orientar o rastreamento de arquivos que não contêm HTML, como PDF e imagens, ou de páginas com conteúdo dinâmico.
Elas ficam no cabeçalho da página e são comunicadas quando ocorre uma requisição de rastreamento, antes de qualquer conteúdo ser carregado.
Assim como as meta tags, elas não impedem o rastreamento, mas limitam a exibição das páginas de todo o site. Até os atributos são similares, como nofollow e noindex.
Sitemaps
Sitemaps são arquivos XML com a lista de URLs do seu site. Esse arquivo é frequentemente usado pelo Google para descobrir novas páginas. Logo, se existe uma página importante, que você quer que seja rastreada, inclua no seu sitemap. Assim fica mais fácil para o Google encontrar.
Como otimizar o rastreamento do seu site?
Otimizar o rastreamento significa garantir que o Google está usando seus recursos nas páginas certas. Diretivas para rastreadores e sitemaps são apenas parte do trabalho. Há uma série de outras ações que podem ser feitas para direcionar o Googlebot aos destinos certos.
Gerencie as suas URLs: torne as URLs importantes facilmente acessíveis, via links internos e sitemap;
Elimine conteúdo duplicado: consolide o conteúdo em uma única URL (a que tiver maior autoridade), evitando que o Googlebot perca tempo rastreando a mesma coisa duas vezes;
Bloqueie URLs inúteis no robots.txt: por exemplo, páginas /wp-admin, /search?, URLs de navegação facetada, feeds de produtos, diretórios privados, entre outros;
Não combine robots.txt e tag noindex: essas duas diretivas se anulam. Se você bloquear a página no robots.txt, a tag noindex nem será lida;
Retorne status 404 ou 410 para páginas removidas: se o conteúdo não existe mais, retorne esses status em vez de fazer um redirecionamento genérico;
Elimine páginas soft 404: páginas com erro soft 404 ainda são rastreadas, o que gasta recursos de forma desnecessária;
Mantenha o sitemap sempre atualizado: o Google visita o sitemap com frequência. Geralmente, sitemaps gerados automaticamente por plugins sempre atualizam de forma periódica;
Gerencie seus redirecionamentos: evide cadeias longas de redirecionamento (+10 links);
Melhore a performance do seu site: se as páginas demoram para carregar, o rastreamento fica comprometido, pois consome mais recursos do Google;
Certifique-se de que o conteúdo é visível: muitas páginas são visíveis para humanos, mas não para robôs. Se o Googlebot não conseguir processar o HTML e os recursos necessários, a página não será rastreada.
Uma boa dica é simular como o Googlebot visualiza a página. É possível fazer isso editando algumas configurações no Chrome DevTools. O vídeo abaixo mostra como:
Já temos um guia completo sobre o relatório aqui no site da SHH, então vamos passar apenas pelo básico:
Acesse pelo menu configurações > estatísticas de rastreamento;
Acompanhe principalmente o total de requisições, tamanho de download e tempo médio de resposta;
Atente-se para a presença de erros 4xx e 5xx. A maioria das suas páginas deve retornar status HTTP 200 (OK);
Você também pode ver o propósito do rastreamento, se é descoberta de URLs ou atualização de uma já conhecida.
Na maioria dos casos, não há necessidade de monitorar ativamente esse relatório. Ele é mais útil para resolver problemas mesmo. Passe nele de vez em quando e atente-se para picos e quedas nos principais dados.
__
Por hoje é isto! O post ficou longo, mas é porque o rastreamento no Google é mais complexo do que parece.
Os diagnósticos e as soluções de problemas, também. Se você precisa de ajuda para melhorar a saúde técnica do seu site, entre em contato com a SEO Happy Hour! Oferecemos serviços de SEO técnico e on-page para que as suas páginas sejam rastreadas, indexadas e apareçam com consistência nos buscadores e sistemas de IA.
Elyson Gums é redator na SEO Happy Hour. Trabalha com redação e produção de conteúdo para projetos de SEO e inbound marketing desde 2014, em segmentos B2C e B2B. É bacharel em Jornalismo (Univali/SC) e mestre em Comunicação Social (UFPR).
Comentários