O que é crawlability (rastreabilidade) em SEO?

Crawlability (ou rastreabilidade) é a capacidade dos buscadores encontrarem e baixarem as páginas de um site. Isso é feito por meio de rastreadores, como o Googlebot. São “robôs” que leem diversas páginas todos os dias e armazenam o conteúdo. 

Rastrear as páginas significa fazer o download dos textos, imagens e vídeos, depois que a URL for descoberta pelo buscador. Uma vez rastreados, os dados ficam organizados em um índice, o que se chama de “indexação”. 

O processo completo para uma página aparecer na pesquisa do Google, Bing ou de outros buscadores é:

  1. Você publica uma página no seu site;
  2. O buscador descobre e rastreia a página para entender o conteúdo;
  3. Processa os dados e os adiciona a um índice (“indexa” as páginas);
  4. Quando a página indexada é relevante para uma busca, pode ser exibida como resultado de pesquisa. 

Esse processo é feito por softwares automatizados chamados rastreadores. Eles também são popularmente chamados de crawlers, spiders, ou simplesmente robôs. O mais conhecido é o Googlebot, que tem versões para computador e smartphone.

Veja como funciona o rastreamento, mas palavras de Gary Illyes, engenheiro do Google:

Qual é a diferença entre indexability e crawlability?

Crawlability e indexability estão relacionados. São fases diferentes da pesquisa orgânica:

  • Crawlability (ou rastreabilidade) é a habilidade de acessar uma página e rastrear o seu conteúdo;
  • Indexability (ou indexabilidade) é a habilidade de analisar o conteúdo rastreado e adicioná-lo a um índice —uma base de dados com milhões de páginas prontas para serem exibidas. 

Por que crawlability importa para SEO?

Sem rastreabilidade, as páginas não recebem tráfego orgânico a partir dos mecanismos de busca. Na maioria das vezes, se uma URL não pode ser rastreada, ela também não pode ser indexada. 

Até existem casos em que páginas são indexadas sem terem sido rastreadas, mas não é a norma. 

Nestas situações, a indexação ocorre com base na leitura de links internos e textos-âncora (a palavra que “vira” o hyperlink, como links internos no exemplo ao lado). Quando a página é indexada desta forma, título e descrição não aparecem nos resultados da pesquisa. 

O que afeta a rastreabilidade de um site?

Existem diversos aspectos técnicos que podem dificultar o rastreamento:

  1. Dificuldade em descobrir URLs: se o crawler não puder encontrar páginas por meio de links internos ou sitemap, elas não serão rastreadas e nem indexadas;
  2. Links “nofollow”: “nofollow” é uma tag HTML adicionada aos links, que informa que o crawler não deve seguir aquela linkagem;
  3. Instruções no robots.txt: entre outras funções, o robots.txt indica aos rastreadores quais partes do site devem ser acessadas. O arquivo tem diversas diretivas para ignorar ou não certas partes do site;
  4. Restrições de acesso: por padrão, partes do site que tenham algum tipo de restrição também não serão rastreadas, como páginas internas acessíveis apenas com login e senha;
  5. Erros de servidor: são os chamados “códigos de status HTTP”, com números que vão de 2xx a 5xx. Eles podem indicar erros de rastreio ou exibição da página;
  6. Erros de DNS: ao detectar algum erro de rede, os robôs param de rastrear e indexar as páginas.

Como impedir uma página de ser rastreada?

Se por alguma razão você quiser impedir os robôs do Google (ou de outros buscadores) de acessarem seu site, o melhor caminho é bloquear o acesso por meio do robots.txt. Isso é feito por meio da diretiva disallow.

Você pode bloquear o acesso a pastas específicas do site, ou a tipos específicos de arquivos dentro da pasta. 

O Google esclarece que é difícil manter URLs em sigilo, se houver algum tipo de linkagem para outras páginas. Falando especificamente do Googlebot, a documentação informa que “quando alguém segue um link do seu site ‘secreto’ para outro site, o URL ‘secreto’ pode aparecer na tag de referência, ser armazenado e publicado pelo outro site no seu registro de referência”.

Ou seja, bloquear o rastreamento não é garantia de que a página não aparecerá no Google. Se o objetivo for esse, o Google indica bloquear a indexação usando a tag noindex ou proteger o conteúdo com senha. 

Como melhorar a rastreabilidade de um site?

Os crawlers não conseguem rastrear literalmente todas as páginas da internet. Eles têm capacidade limitada de armazenamento. Em SEO, este conceito se chama crawl budget.

Se você está com problemas de rastreabilidade no seu site, os passos envolvem permitir acesso aos robôs e tornar o trabalho deles mais fácil. Estas são algumas formas de fazer isso:

  1. Revise o arquivo robots.txt: veja se há diretivas proibindo acesso a partes específicas do site (como disallow para uma pasta que deveria estar sendo rastreada);
  2. Verifique sua linkagem interna: uma boa estrutura de links torna mais simples o processo de “varrer” o site para encontrar e baixar o conteúdo das páginas;
  3. Envie ou atualize seu sitemap: informa as páginas que existem no site, o que facilita o caminho que o rastreador precisa percorrer;
  4. Organize a arquitetura do seu site: um site bem organizado facilita a navegação dos visitantes e torna o processo de encontrar e rastrear páginas mais simples para os buscadores;
  5. Solucione links quebrados: são páginas que não existem mais. Retire estes links ou faça o redirecionamento adequado, para não gastar desnecessariamente os recursos dos robôs.
  6. Melhore a velocidade de carregamento: quanto mais rápido o carregamento da página, mais rápido o robô passa por ela. 

Para descobrir se há problemas no site ou em páginas específicas, você pode:

  • Usar recursos de ferramentas de SEO (como Ahrefs, Semrush, Moz, etc.);
  • Usar a ferramenta de inspeção de URL no Google Search Console. Você pode ver o status de uma página específica, ver relatórios de todas as páginas do site ou ver como o Googlebot “enxerga” a página enquanto a rastreia.