Como o Google escolhe as URLs canônicas

Quando um site possui duas ou mais páginas com conteúdo igual ou muito semelhante, o Google precisa decidir qual delas ele vai indexar como a representante das demais páginas nos resultados de busca. A URL escolhida é a que chamamos de URL canônica. 

A canonical tag, ou tag canônica, é um elemento adicionado ao código HTML da página para indicar qual a URL preferencial, e os próprios donos de site podem fazer isso. No entanto, é só uma sugestão. Não significa que o Google vai te obedecer. 

Não existe uma regra clara para a escolha de uma URL canônica pelo Google, e por isso um usuário perguntou no Reddit como é feito esse processo dentro da big tech. 

O John Mueller, do Google, respondeu e explicou detalhes, revelando que se trata de um sistema de análise por múltiplos sinais sobrepostos. Erros de classificação acontecem, mas raramente causam problemas sérios para o leitor final.

A seguir, eu te conto mais sobre esse esclarecimento do John Mueller.

Os 9 motivos para o Google definir uma página como canônica

Mueller listou nove cenários distintos que explicam por que o Google trata duas ou mais páginas como duplicatas e seleciona uma delas como canônica. Confira:

1. Conteúdo 100% idêntico

O caso mais simples: quando duas páginas são completamente iguais, o Google não encontra nenhum sinal que justifique tratar uma delas de forma diferente da outra. 

Sem distinção de conteúdo, o algoritmo simplesmente escolhe uma das URLs para representar o conjunto, muitas vezes com base em outros fatores como autoridade de links ou estrutura da URL.

2. Grande parte do conteúdo duplicado

Não é necessário que as páginas sejam idênticas para que o Google as trate como duplicadas. 

Quando uma parcela significativa do conteúdo principal se repete, o algoritmo pode concluir que se trata de conteúdo duplicado e eleger apenas uma das versões como canônica. 

Mueller cita esse caso como um dos mais comuns e destaca que a sobreposição parcial já é suficiente para acionar esse comportamento.

3. Pouco conteúdo único

Quando uma página possui muito pouco conteúdo original em relação ao volume de elementos de template, como menus, cabeçalhos, rodapés e barras de navegação, o Google pode interpretar que as páginas são efetivamente iguais, mesmo que o conteúdo único seja diferente. 

Em termos práticos, se o conteúdo de uma página for muito curto em comparação ao layout ao redor, ela corre o risco de ser tratada como duplicata de outra página igualmente “vazia” de substância.

4. Padrões de parâmetros de URL

O Google aprende com os padrões que encontra em um site. Se ele identificar que: “/page?tmp=1234” e “/page?tmp=3458” retornam o mesmo conteúdo, vai assumir que “/page?tmp=9339” também o fará — e tratará todas como duplicatas. 

Mueller alerta, no entanto, que esse mecanismo pode gerar erros quando múltiplos parâmetros entram em cena: o Google pode não conseguir distinguir corretamente se “/page?tmp=1234&city=detroit” é ou não a mesma coisa que “/page?tmp=2123&city=chicago”.

5. Versão mobile usada na avaliação

Um dos motivos mais comuns de confusão, segundo Mueller, é o fato de que o Google utiliza a versão mobile das páginas para tomar decisões de canonização,  enquanto a maioria dos SEOs faz suas verificações no desktop. 

Se a versão mobile de uma página apresentar conteúdo diferente, reduzido ou com problemas, isso pode influenciar diretamente na forma como o Google classifica e seleciona canônicas, sem que o profissional perceba a causa do problema.

6. Versão vista pelo Googlebot

As decisões de canonização são baseadas no que o Googlebot de fato consegue acessar e visualizar, não no que o usuário comum vê ao acessar a página. Isso significa que qualquer diferença entre a experiência do usuário e a do robô pode impactar a escolha canônica. 

Mueller ressalta que esse ponto é especialmente relevante para sites que entregam conteúdo personalizado com base no agente de acesso.

7. Páginas de erro ou reCAPTCHA exibida ao Googlebot

Se o Googlebot for recebido ao site por uma página de reCAPTCHA, uma mensagem de erro genérica ou qualquer outro tipo de respostas que não seja o conteúdo real da página, o Google pode reconhecer esse padrão e tratar a URL como duplicata de outras que retornam o mesmo tipo de resposta. 

Esse erro é mais comum do que parece e muitas vezes não é identificado pelos responsáveis pelo site.

8. Falha na renderização de Javascript

Quando o Google não consegue renderizar o JavaScript de uma página, ele recorre ao HTML base (chamado de bootstrap HTML). O problema é que esse HTML costuma ser idêntico em todas as páginas de um mesmo site, o que faz com que o Google as interprete como duplicatas. 

Mueller destaca que esse risco é particularmente alto em sites construídos com frameworks JavaScript, onde o conteúdo visível ao usuário é gerado dinamicamente pelo JS e simplesmente não existe no HTML puro que o robô consegue ler sem renderização.

9. Ambiguidade

Por fim, Mueller reconhece que o sistema não é perfeito. Em alguns casos, uma URL pode ser classificada incorretamente como duplicata simplesmente porque ela “parece fora do lugar” para o algoritmo, sem um motivo técnico claramente identificável. 

Ele afirma que esses casos muitas vezes se resolvem com o tempo, à medida que os sistemas aprendem que as páginas são de fato distintas, mas nem sempre isso acontece. 

A boa notícia, segundo ele, é que a grande maioria desses erros é inofensiva e não prejudica significativamente a experiência do usuário.

O que fazer quando o Google escolher uma URL canônica “errada”? 

Existem algumas ações que você pode tomar para fortalecer o sinal de uma tag canônica, caso o Google ignore sua diretiva e escolha outra página canônica:

  • Implemente a canonical tag corretamente em todas as páginas do grupo, apontando para a URL que você quer como canônica;
  • Configure um redirecionamento 301 das URLs duplicadas para a versão canônica, especialmente se essas páginas não precisam ser acessadas diretamente pelo visitante;
  • Revise o sitemap e garanta que ele inclua apenas as URLs canônicas. O Google usa o sitemap como um sinal na hora de tomar essa decisão;
  • Faça links internos sempre para a URL canônica, evitando reforçar inadvertidamente as versões duplicadas;
  • Melhore a qualidade do conteúdo da URL que você quer canonizar. O Google tende a escolher a versão que considera mais completa e útil para o leitor;
  • Solicite uma reindexação pelo Google Search Console após realizar as correções e aguarde alguns dias para o resultado. 

Vale reforçar que, mesmo que você siga todos esses papos, não tem como obrigar o Google a usar a sua versão canônica. Se o Google e o site concordarem sobre a canônica, em alguns dias as páginas deverão aparecer com o status “página alternativa com tag canônica adequada” no Search Console.

As boas práticas no uso de canonical tag

Já deu pra entender que implementar a canonical tag corretamente é o passo mais importante para mandar um sinal forte ao Google. E para isso funcionar, você precisa seguir boas práticas: 

  • Utilize self-referencing canonical em todas as páginas, apontando cada URL para ela mesma;
  • Use sempre letras minúsculas nas URLs para evitar que variações sejam interpretadas como duplicatas;
  • Aponte a canonical sempre para a versão correta do domínio, seja HTTPS ou HTTP;
  • Inclua anotações hreflang quando o site tiver versões em diferentes idiomas ou regiões;
  • Use apenas uma canonical tag por página pois múltiplas tags geram comportamento imprevisível;
  • Nunca aponte a canonical para URLs que retornam códigos 3xx, 4xx ou 5xx;
  • Não bloqueie URLs canônicas via robots.txt;
  • Não aplique noindex em páginas que você indicou como canônicas;
  • Evite usar canonical tag em páginas de paginação, prefira os atributos rel=”next” e rel=”prev”.

___

E aí, você sabia que o Google tinha tantos motivos para selecionar uma URL canônica? Se estiver tendo problemas com isso, entre em contato com a SEO Happy Hour, a gente pode te ajudar! 

No mais, continue acompanhando nossos perfis no Linkedin, YouTube e nossa newsletter para ficar por dentro de todas as novidades do universo do SEO, IA e do Google.

  • Karine Sales

    Jornalista e criadora de conteúdo digital, atua há mais de 8 anos desenvolvendo estratégias e textos otimizados para blogs, sites e redes sociais.

Comentários

0 Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *