Quais são as URLs mais difíceis para o Google rastrear? Engenheiros explicam

O Google tem dificuldades em rastrear certos tipos de URL, especialmente navegação facetada e URLs com parâmetros irrelevantes.

Em 2025, esses foram os principais desafios de rastreamento. Martin Splitt e Gary Illyes, engenheiros e porta-vozes da Pesquisa Orgânica, explicaram em um podcast por que essas páginas são tão problemáticas: muitos recursos são gastos para entender se elas realmente são úteis.

Isso torna o rastreamento mais lento e, no caso dos sites grandes, gasta crawl budget à toa.

É possível que o seu site tenha algumas dessas URLs complicadas. E, embora nem sempre elas causem problemas de SEO, é interessante aprender como gerenciá-las. 

Como funciona o rastreamento do Google?

Rastreamento é o ato de baixar o conteúdo de uma página. Um robô lê os primeiros 2 MB do HTML, renderiza o JavaScript e em seguida processa as informações. Sem isso, ela não aparece no buscador.

Muitas páginas são complexas de rastrear, e ficam ainda piores quando pensamos em escala: o Google rastreia bilhões delas todos os dias e precisa decidir quais devem ser indexadas. 

Frequentemente, há grupos de páginas muito parecidas. Elas têm URLs diferentes, mas o mesmo conteúdo. É o caso das URLs com parâmetros:

  • www.site.com é uma coisa;
  • www.site.com?utm_source=blog é outra coisa (apesar de ser igual à versão sem parâmetros).

Isso pode ocasionar problemas de conteúdo duplicado no site. 

Os desafios do rastreamento do Google

Ao lidar com certos grupos de páginas, o robô fica perdido. Ele simplesmente se perde no processo, rastreando páginas sem parar para identificar quais são realmente úteis.

Como explica Gary Illyes:

“Depois de descobrir um conjunto de URLs, ele (o Googlebot) não consegue decidir se esse espaço de URLs é bom ou não, a menos que tenha rastreado uma grande parte desse espaço de URL. E ao incluir um monte de novas URLs […] o Googlebot irá rastreá-las também, para tomar essa decisão”.

Em sites grandes, com muitas URLs, a situação sai do controle. O rastreamento demora e são enviadas requisições em excesso para os sites, o que pode sobrecarregar os servidores.

O engenheiro quantificou da seguinte forma os tipos de página que mais geram esse problema:

  • Navegação facetada: representa 50% dos problemas do Google. São os filtros frequentemente usados em sites de e-commerce, para pesquisar produtos por cor, preço, tamanho, entre outros;
  • Parâmetros de ação: representam 25% dos problemas. São parâmetros que indicam alguma ação feita pelo visitante, não uma mudança de conteúdo de página;
  • Parâmetros irrelevantes: representam 10% dos problemas. São parâmetros que o Googlebot não consegue identificar se alteram o conteúdo de forma significativa, como UTMs; 
  • URLs geradas dinamicamente: representam 5% dos problemas. São URLs irrelevantes geradas por plugins e widgets;
  • Páginas “estranhas”: representam algo como 2% dos problemas. É uma categoria geral para situações atípicas que o Googlebot encontra na internet.

Veja abaixo os detalhes sobre cada tipo de página.

Navegação facetada

A navegação facetada são filtros dinâmicos que mudam o conteúdo exibido em uma página. São muito populares para exibir produtos em e-commerces de acordo com tamanho, cor, modelagem, entre outros.

Cada filtro adiciona um novo parâmetro de URL. O mesmo vale para combinações de filtros, que podem gerar combinações quase infinitas. Sem gerenciamento adequado, o Google tentará rastrear cada uma delas.

Como evitar problemas

  • Use o arquivo robots.txt para impedir o rastreamento de URLs irrelevantes de navegação facetada, como ?sort;
  • Use fragmentos de URL (#) para especificar os filtros, em vez de parâmetros (?), pois os fragmentos são geralmente ignorados;
  • Insira uma canonical tag especificando qual URL é a principal – no exemplo do e-commerce, a URL do produto sem nenhum filtro. Isso pode desencorajar o rastreamento de todas as versões não-canônicas;
  • Evite links internos para URLs com filtros. Se não for possível, use a tag nofollow para indicar que o Googlebot não deve seguir a versão parametrizada.

Para mais detalhes, veja a documentação do Google sobre navegação facetada.

Parâmetros de ação

São parâmetros que não mudam o conteúdo da página, mas indicam que alguma ação foi realizada. Assim como os filtros de navegação facetada, também são comuns em e-commerces.

Exemplos comuns são parâmetros como:

  • ?add_to_cart=true
  • ?add_to_wishlist=true
  • ?update_profile=true
  • ?action=save
  • ?sort=latest 

Quando o Googlebot encontra esses parâmetros, eles são tratados como URLs diferentes. O mesmo vale para combinações de parâmetros.

Como evitar problemas

A solução mais prática é usar diretivas no robots.txt para bloquear as URLs com parâmetros.

É possível:

  • Bloquear todos os parâmetros, usando disallow: /*?*
  • Bloquear parâmetros específicos, usando por exemplo disallow: /*?*sort=*

O ideal é impedir que esses parâmetros sejam criados. Para isso, busque dados sobre o rastreamento do seu site, identifique os tipos mais rastreados e busque alternativas junto do seu time de desenvolvimento.

Parâmetros irrelevantes

Os parâmetros irrelevantes não alteram explicitamente o conteúdo das páginas. É o caso de UTMs, ID de sessão, ordenação de produtos e referral

Nas palavras de Gary Illyes, o Googlebot consegue lidar “relativamente bem” com eles, exceto quando há ambiguidade. É o caso de parâmetros fora do padrão, como www.site.com?s. Essa URL pode significar qualquer coisa, como “search” ou “service”. Logo, o Googlebot precisa rastrear a página para entender do que se trata.

Mesmo no caso dos parâmetros conhecidos, é interessante limitar o rastreamento, pois eles podem gerar um número massivo de URLs duplicadas.

Como evitar problemas:

  • Use o menor número possível de parâmetros que não alteram o conteúdo das páginas;
  • Abandone o session ID. Prefira cookies para coletar dados de sessão;
  • Bloqueie os demais parâmetros com diretivas no robots.txt.

Para mais detalhes, leia a documentação de estrutura de URLs do Google.

URLs geradas dinamicamente

Plugins, CMS e widgets podem gerar URLs duplicadas dinamicamente. Gary explica que muitos dos problemas de parâmetros irrelevantes e de ação são gerados no WordPress, WooCommerce, ou por outras plataformas de gestão de sites.

São links gerados diretamente nas páginas de produtos, que são rastreáveis e podem gastar recursos do Google de forma desnecessária. 

Muitos desses problemas são solucionados pelos próprios desenvolvedores das plataformas. Ainda assim, é interessante que donos de sites estejam atentos para gerenciar essas URLs.

Como evitar problemas:

  • Use apenas plugins confiáveis;
  • Revise frequentemente as URLs rastreadas do seu site;
  • Caso identifique URLs duplicadas sendo rastreadas, limite-as via robots.txt.

Problemas diversos

Gary Illyes descreve os demais casos como “as coisas esquisitas da internet”. Essa categoria reúne os casos atípicos, como problemas na codificação de URLs

Acontece quando o time de desenvolvimento do site realiza a codificação duas vezes sem perceber, o que pode gerar sequências inconsistentes. Logo, o Googlebot rastreia a mesma página diversas vezes.

Outras causas podem ser erros no fluxo de desenvolvimento do site, ou interações atípicas entre plugins.

Quem precisa realmente se preocupar com isso?

Os principais interessados em otimizar o rastreamento são:

  • Sites grandes, a partir de dezenas de milhares de páginas;
  • E-commerces, pois usam bastante parametrização.

Sites menores podem ser completamente rastreados pelo Google. Já para os sites maiores, o Google define uma “cota de rastreamento”, que deve ser gasta em URLs que são relevantes para SEO.

Para otimizar o seu site, entre em contato com a SEO Happy Hour. Nossa consultoria cobre os principais problemas técnicos e pode te apoiar no diagnóstico e solução dos problemas difíceis de detectar, mas que atrapalham os seus resultados.

  • Elyson Gums

    Elyson Gums

    Elyson Gums é redator na SEO Happy Hour. Trabalha com redação e produção de conteúdo para projetos de SEO e inbound marketing desde 2014, em segmentos B2C e B2B. É bacharel em Jornalismo (Univali/SC) e mestre em Comunicação Social (UFPR).

Comentários

0 Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *