Elyson Gums
Jornalista e mestre em Comunicação Social. Produzo conteúdo para projetos de SEO e inbound marketing desde 2014.
Atualizado em 15/03/2024
6 min de leitura
Crawlability (ou rastreabilidade) é a capacidade dos buscadores encontrarem e baixarem as páginas de um site. Isso é feito por meio de rastreadores, como o Googlebot. São “robôs” que leem diversas páginas todos os dias e armazenam o conteúdo.
Rastrear as páginas significa fazer o download dos textos, imagens e vídeos, depois que a URL for descoberta pelo buscador. Uma vez rastreados, os dados ficam organizados em um índice, o que se chama de “indexação”.
O processo completo para uma página aparecer na pesquisa do Google, Bing ou de outros buscadores é:
Esse processo é feito por softwares automatizados chamados rastreadores. Eles também são popularmente chamados de crawlers, spiders, ou simplesmente robôs. O mais conhecido é o Googlebot, que tem versões para computador e smartphone.
Veja como funciona o rastreamento, mas palavras de Gary Illyes, engenheiro do Google:
Crawlability e indexability estão relacionados. São fases diferentes da pesquisa orgânica:
Sem rastreabilidade, as páginas não recebem tráfego orgânico a partir dos mecanismos de busca. Na maioria das vezes, se uma URL não pode ser rastreada, ela também não pode ser indexada.
Até existem casos em que páginas são indexadas sem terem sido rastreadas, mas não é a norma.
Nestas situações, a indexação ocorre com base na leitura de links internos e textos-âncora (a palavra que “vira” o hyperlink, como links internos no exemplo ao lado). Quando a página é indexada desta forma, título e descrição não aparecem nos resultados da pesquisa.
Existem diversos aspectos técnicos que podem dificultar o rastreamento:
Se por alguma razão você quiser impedir os robôs do Google (ou de outros buscadores) de acessarem seu site, o melhor caminho é bloquear o acesso por meio do robots.txt. Isso é feito por meio da diretiva disallow.
Você pode bloquear o acesso a pastas específicas do site, ou a tipos específicos de arquivos dentro da pasta.
O Google esclarece que é difícil manter URLs em sigilo, se houver algum tipo de linkagem para outras páginas. Falando especificamente do Googlebot, a documentação informa que “quando alguém segue um link do seu site ‘secreto’ para outro site, o URL ‘secreto’ pode aparecer na tag de referência, ser armazenado e publicado pelo outro site no seu registro de referência”.
Ou seja, bloquear o rastreamento não é garantia de que a página não aparecerá no Google. Se o objetivo for esse, o Google indica bloquear a indexação usando a tag noindex ou proteger o conteúdo com senha.
Os crawlers não conseguem rastrear literalmente todas as páginas da internet. Eles têm capacidade limitada de armazenamento. Em SEO, este conceito se chama crawl budget.
Se você está com problemas de rastreabilidade no seu site, os passos envolvem permitir acesso aos robôs e tornar o trabalho deles mais fácil. Estas são algumas formas de fazer isso:
Para descobrir se há problemas no site ou em páginas específicas, você pode: