Conteúdo duplicado em SEO: o que é, como diagnosticar e como evitar em 5 ações práticas

Conteúdo duplicado é quase sempre uma dor de cabeça na hora de gerenciar um site. Acontece quando há páginas idênticas ou muito similares no domínio. 

Geralmente é por algum problema técnico, como parametrização de URLs, versões em múltiplos idiomas, filtros de navegação facetada, entre outros.

Quanto maior o site, mais o problema escala. Primeiro, porque a mesma falha pode gerar um número alto de duplicações. E, segundo, porque torna-se necessário gerenciar como essas páginas aparecem ou deixam de aparecer nos buscadores.

Hoje você aprenderá como lidar com o conteúdo duplicado em sites de todos os tipos e tamanhos. 

O que realmente é conteúdo duplicado?

Conteúdo duplicado é todo aquele que está disponível em duas ou mais URLs.

É um conceito aparentemente simples de entender, mas que pode gerar confusões. Muitas pessoas pensam que é sinônimo de “plágio”, você copiar o texto de uma página e publicar em outra.

Mas não é só isso.

Em SEO, qualquer bloco extenso de conteúdo que está em mais de uma URL pode ser visto como duplicado. Isso inclui o texto, mas também o próprio código-fonte da página.

Muitas vezes, as duplicações são automáticas, criadas pela própria infraestrutura do site. 

Um exemplo clássico:

  • Sua loja vende a “Camisa Bonita” nas cores preta e branca;
  • A URL da página de produto é /camisa-bonita;
  • Quando o visitante clica para escolher a cor, a URL muda para /camisa-bonita?preto ou /camisa-bonita?branco.

Isso pode ser considerado duplicado. 

Para um ser humano, são dois conteúdos diferentes: uma camisa é branca, outra é preta.

Mas o Google enxerga duas páginas 99% iguais. Só muda a URL e a imagem. 

E, por padrão, o buscador não indexa páginas repetidas. Aí, ele precisa tomar uma decisão: indexar a URL /camisa-bonita, /camisa-bonita?preto ou /camisa-bonita?branco.

Por isso o conteúdo duplicado é uma questão técnica importante.

Páginas canônicas e duplicadas

O algoritmo do Google tem um funcionamento específico para lidar com conteúdo duplicado: as páginas canônicas.

A página canônica é considerada a principal do site. É a versão que deve ser indexada e que traz mais valor para os visitantes.

As páginas duplicadas são cópias da canônica. Elas podem ter valor para as pessoas que estão navegando pelo site, mas não para o Google, então o buscador as deixa de lado.

Funciona assim porque o Google entende que o conteúdo duplicado não é malicioso, criado para manipular o algoritmo. E que ele pode ser útil dentro de um site. Mas, apesar dessas páginas terem função, elas devem ser gerenciadas corretamente pelas equipes de SEO.

Por que conteúdo duplicado é ruim?

O conteúdo duplicado pode dificultar a compreensão das suas páginas. O Googlebot acessa as URLs, mas não entende quais versões são as principais.

Isto pode causar diversos problemas de SEO, como: 

  • Dificultar a mensuração de resultados, já que você precisará agrupar uma série de URLs com o mesmo conteúdo;
  • Pode gerar canibalização, quando páginas de um mesmo site competem na Pesquisa Orgânica;
  • Em sites grandes, gera problemas de crawl budget;
  • Pode fazer a URL “errada” aparecer na pesquisa (versão duplicada em vez da canônica);
  • Diluir a autoridade de uma página, pois tráfego, engajamento e backlinks estarão separados em várias versões. 

No entanto, ter páginas duplicadas não influencia diretamente a percepção de qualidade de um site. Ou seja, o Google não vai achar o seu site “ruim” por causa das páginas parecidas.

Inclusive, na maioria das vezes o Google consegue identificar por conta própria qual versão é a canônica e quais são as cópias. Mas ainda assim vale a pena acompanhar a questão de perto.

Conteúdo duplicado também atrapalha o SEO para IA

Segundo a Microsoft, buscadores tradicionais e IAs lidam com conteúdo duplicado de forma muito parecida. Por consequência, ocorre o mesmo problema: dificuldade em entender as páginas, o que pode levar à perda de visibilidade e URLs erradas recebendo cliques.

De acordo com Fabrice Canel e Krishna Madhavan, Gerentes de Produto da Microsoft:

“As LLMs agrupam URLs praticamente iguais em um único grupo e então escolhem uma página para representar esse conjunto. Se as diferenças entre as páginas for mínima, o modelo pode selecionar uma versão antiga ou que não é a que você quer destacar”.

“Quando você reduz as páginas que se sobrepõem e permite que uma versão de alta autoridade concentre todos os seus sinais, os mecanismos de busca conseguem entender o seu objetivo com confiança e selecionar a URL certa para representar o seu conteúdo”.

As LLMs acessam os índices dos buscadores em tempo real, quando seus dados de treinamento são insuficientes para gerar uma resposta. Por isso o cenário é tão parecido. 

Quais são as principais causas de conteúdo duplicado?

As causas mais comuns de conteúdo duplicado são:

  • Parametrização de URLs;
  • Protocolo HTTPS e subdomínios;
  • Versões alternativas de páginas (mobile, AMP, para impressão);
  • Ambientes de pré-produção;
  • Páginas criadas pelo CMS.

Importante: várias dessas causas são inevitáveis, como a parametrização. Você deve usar esse recurso sempre que for útil. A ideia é gerenciar para que o Google indexe apenas o correto. 

Parâmetros de URL

Parâmetros são códigos adicionados ao final de uma URL, por meio dos sinais de ? e &. Eles enviam informações extras ao servidor, como a origem de um clique.

Cada parâmetro é tratado como uma página diferente pelos buscadores. E, como literalmente a única mudança é o código da URL, todas passam a ser vistas como duplicadas.

Os tipos mais comuns de parâmetro são filtros e parâmetros de rastreamento.

Filtros

Filtros estão principalmente em sites de e-commerce. Quando você seleciona alguma característica do produto, como cor ou tamanho, um parâmetro é adicionado ao final da URL.

loja.com/camisa-bonita?cor=preto

E quanto mais filtros entram, mais parâmetros são adicionados:

loja.com/camisa-bonita?cor=preto&tamanho=m

As combinações podem sair de controle rapidamente, ainda mais se a loja tiver muitos produtos. 

Parâmetros de rastreamento

Os parâmetros de rastreamento são usados para obter informações adicionais sobre quem está navegando.

Pode ser para classificar cada sessão única:

site.com?sessionID=54454 

Ou, o mais comum, para identificar quais campanhas ou canais de marketing estão gerando tráfego para o site:

site.com?utm_campaign=influenciador1&utm_source=newsletter

Protocolo e prefixo

O protocolo (HTTP ou HTTPS) e o uso do prefixo WWW também podem gerar duplicação de conteúdo. 

Acontece porque um mesmo domínio pode ter múltiplas versões indexadas, todas com o mesmo conteúdo:

  • http://www.site.com
  • https://www.site.com
  • http://site.com
  • https://site.com

Sem os ajustes corretos, é possível acessar todas, o que resulta em pelo menos três versões de cada URL do site.

Versões alternativas de site

Sites antigos podem ter versões alternativas para finalidades específicas. O mais comum são páginas mobile, AMP e para impressão.

Ou melhor, eram comuns – sites mais recentes não usam mais essas tecnologias, ou têm soluções alternativas, que não criam novas URLs. Hoje, você só verá esses problemas se estiver lidando com um site bem velho mesmo. 

As páginas móveis carregam uma URL diferente para celulares, como:

  • site.com para desktop;
  • m.site.com para dispositivos móveis.

Como o conteúdo é igual, é considerado duplicado. 

Páginas AMP foram desenvolvidas para carregar mais rápido em celulares, em uma época em que as conexões móveis eram mais lentas. As URLs são:

  • site.com/noticia
  • site.com/amp/noticia

Se você ainda usa AMP (não recomendamos), precisa gerenciar.

Já as páginas para impressão exibem um layout simplificado para economizar tinta da impressora. 

  • site.com/artigo é a versão normal;
  • site.com/artigo?view=print é a versão para impressão.

Hoje você já consegue resolver essa questão usando CSS.

Localização

É uma situação bem específica: sites com versões para países diferentes, mas que falam o mesmo idioma. 

Teoricamente, cada site estará devidamente adaptado para a realidade do país, então não deveria ser visto como duplicado. Mas pode acontecer, pois a URL fica bem parecida:

  • www.site.com/br/artigo
  • www.site.com/pt/artigo
  • www.site.com/ao/artigo

Nesse caso, tem que usar a tag hreflang para indicar qual versão deve ser exibida em cada região.

Ambientes de pré-produção

Ambientes de pré-produção são as “versões teste” de um site. Eles são usados durante redesigns ou lançamentos, para ver se está tudo certo antes de ir ao ar.

O problema é que muita gente esquece de colocar a tag noindex nesse ambiente. Aí ele se torna uma cópia idêntica da versão que de fato foi publicada. 

Como identificar conteúdo duplicado?

Basta acessar o relatório de indexação de páginas do Google Search Console. Os status que indicam duplicação de conteúdo são:

Esses status não indicam necessariamente um erro que você precisa resolver. Apenas mostra os motivos pelos quais uma página não foi indexada. Mesmo assim é importante ter atenção a esses relatórios. 

É uma boa prática de SEO indicar corretamente as páginas canônicas para ter controle sobre o que aparece no Google e evitar problemas de performance. 

Como solucionar conteúdo duplicado?

Martin Splitt, porta-voz do Google, gravou um vídeo com três dicas de como solucionar problemas de conteúdo duplicado: usar canonical tag, fazer links para a página correta ou condensar o conteúdo duplicado (quando for possível).

Veja a tradução abaixo, junto de algumas dicas complementares, elaboradas pela equipe da SEO Happy Hour.

As correções seguem duas linhas: indicar corretamente a URL canônica ou prevenir a criação das cópias. Essas estratégias funcionam para o Google e para as IAs.

1. Use a canonical tag

A canonical tag é a principal forma de indicar ao Google qual é a versão principal de um grupo de páginas duplicadas.

É uma tag (rel=canonical) inserida no cabeçalho HTTP, ou mais frequentemente no campo <head> do HTML da página. 

Imagine que você tenha as seguintes URLs no seu e-commerce:

  • https://www.loja.com/produto
  • https://www.loja.com/produto?cor=vermelho
  • https://www.loja.com/produto?cor=vermelho&?tamanho=m

Você deve indicar https://www.loja.com/produto como a sua versão canônica. Ela é a página que agrega mais valor aos visitantes, pois representa melhor o conjunto de possibilidades de compra daquele produto.

Ficaria assim:

<link rel=”canonical” href=”https://www.loja.com/produto/” />

Essa tag deve estar em todas as versões duplicadas. 

Vale lembrar que a tag canonical é só uma dica. Martin Splitt explica que muitas pessoas aplicam de forma equivocada, então o Google não pode considerá-la como uma regra. 

Na prática, quer dizer que a canonical não é sempre levada em consideração. Ainda assim, é a melhor forma de indicar qual é a URL principal. 

2. Faça links para a versão canônica

Sempre que fizer um link interno, aponte para a versão canônica do conteúdo, ao invés de uma URL duplicada. Ao rastrear as páginas, o Google seguirá os links e entenderá com mais clareza qual é a página principal, que deve ser indexada.

Para os links que já estão no seu site, você pode redirecionar para a versão canônica. Ou seja, se há links para https://www.loja.com/produto?cor=vermelho, redirecione para https://www.loja.com/produto

Quando fizer isso, faça um redirect 301 para evitar problemas de performance. Esse é o redirecionamento permanente, que comunica ao Google “pode ignorar a URL antiga, ela não tem mais utilidade, rastreie e indexe apenas a nova”. 

3. Combine conteúdo duplicado

Quando você identificar páginas duplicadas, verifique se elas são realmente necessárias.

Acontece bastante em URLs cujo bloco principal de conteúdo é muito semelhante. Por exemplo, uma página chamada “consultoria financeira” e outra chamada “melhor consultoria financeira”.

Por mais que o conteúdo delas seja diferente, a essência é basicamente a mesma. Aí vale a pena reunir tudo em uma URL só.

Essa abordagem traz vários benefícios:

  • Facilita a navegação para os visitantes do seu site;
  • Torna a leitura de relatórios mais simples;
  • Reduz conteúdo irrelevante no seu conteúdo, o que se alinha com os indicadores de qualidade do Google.

4. Atualize o seu sitemap

O sitemap é a lista de páginas do seu site. É um arquivo simples com todas as suas URLs relevantes, que ajuda o Google a encontrar páginas para rastrear e indexar.

Este arquivo também pode ser usado para indicar URLs canônicas. Ele é considerado um “sinal fraco” pelo Google, mas também pode ser usado para combater o conteúdo duplicado do seu site. 

Para isso, basta colocar a URL canônica no sitemap. Além disso, analise o arquivo e veja se há algum link duplicado e, se houver, remova. 

5. Revise sistemas que criam páginas duplicadas

Além de indicar URLs canônicas, você pode prevenir que elas sejam criadas. Para isso, precisa analisar os relatórios do GSC para entender qual é a origem dessas URLs.

Estas são algumas situações comuns:

  • Parâmetro de sessão: entre em contato com seu dev para removê-los, caso não tenha utilidade pro seu marketing;
  • Páginas para impressão: ofereça recursos de impressão usando CSS;
  • Paginação de comentários no WP: desabilite no menu “Discussões” do WP;
  • Demais conteúdos paginados: siga as orientações do Google para vincular cada página;
  • UTMs desorganizadas: implemente um padrão fixo (primeiro campanha, depois fonte, por exemplo), para evitar múltiplas combinações.
  • Múltiplas versões de site: selecione uma principal. Redirecione todas as outras versões para a canônica.

Essas ações devem ser conduzidas por profissionais com conhecimento em SEO, para evitar erros que podem comprometer o site. Entre em contato e descubra como a SEO Happy Hour pode ajudar. Temos experiência lidando com sites de todos os tamanhos – e anos diagnosticando e solucionando problemas de duplicação de conteúdo.

  • Elyson Gums

    Elyson Gums

    Elyson Gums é redator na SEO Happy Hour. Trabalha com redação e produção de conteúdo para projetos de SEO e inbound marketing desde 2014, em segmentos B2C e B2B. É bacharel em Jornalismo (Univali/SC) e mestre em Comunicação Social (UFPR).

Comentários

0 Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *