Crawl Budget: o que é e fatores que afetam o rastreamento de páginas

Entender como o crawl budget funciona e como ele afeta o ranqueamento de um site é uma parte essencial de uma boa estratégia de SEO. 

Para começar, vamos entender o que é crawling. 

Crawling é o processo em que sites de pesquisa, como o Google, submetem seus robôs para escanear o conteúdo de um site, analisando texto, imagem, vídeos e demais informações presentes nas páginas deste website. 

Para que um site apareça nos resultados de pesquisa do Google, ele precisa ter suas páginas indexadas. Isso significa que o site precisa permitir que o Google rastreie suas páginas. 

Agora que você já sabe o que é crawling, vamos nos aprofundar no conceito de crawl budget? Vamos lá!

O que é Crawl Budget?

Crawl Budget é o número de páginas que o robô do Google — o Googlebot — consegue rastrear do seu site. Existe uma quantidade imensurável de páginas na internet, portanto, rastrear uma por uma, todo dia, toda hora, seria impossível. 

Por conta de sua limitação, o Google determina um Crawl Budget – uma cota de URLs dedicada para cada site ser rastreado. Essa cota de rastreamento pode ser influenciada por diversos fatores, como a quantidade de páginas do site, a qualidade do seu conteúdo, a autoridade que ele tem no assunto e a relevância para o usuário. 

O Crawl Budget é importante para uma boa estratégia de SEO porque, se o Google não rastrear suas páginas, elas não poderão ser indexadas e, portanto, não serão exibidas nos resultados de pesquisa.

Para entender um pouco melhor sobre esse conceito, vamos falar sobre como ele funciona e quais são os principais fatores que o afetam. 

Como funciona o Crawl Budget?

Para determinar o Crawl Budget, existem dois fatores principais que são avaliados: o Crawl Rate Limit e Crawl Demand. Vamos conhecer um pouco mais sobre esses dois conceitos.

Crawl Rate Limit

Crawl Rate Limit é o limite de velocidade imposto pelo Google para realizar o rastreio de um site. Quando o Googlebot realiza o rastreio de páginas do site, o Crawl Rate Limit limita a quantidade de solicitações que o Googlebot faz ao site por segundo. 

O Crawl Rate Limite é determinado pela capacidade do servidor em que seu site está hospedado. Isso significa que se o seu servidor não conseguir lidar com muitas solicitações ao mesmo tempo, o limite de velocidade será menor. Logo, o Crawl Budget será afetado. 

Para melhorar o Crawl Rate Limit, você pode considerar melhorar a capacidade do seu servidor ou reduzir o tamanho e a complexidade das suas páginas. Isso pode incluir reduzir o número de elementos em uma página, compactar arquivos grandes e evitar a utilização de conteúdo pesado em JavaScript.

Também é importante evitar bloquear o Googlebot  por meio do arquivo robots.txt ou restringir o acesso dele ao seu site por meio do CDN ou do servidor, pois isso pode reduzir ainda mais o Crawl Rate Limit e afetar negativamente o rastreamento e indexação das suas páginas. Mais a frente vamos falar sobre como usar o robots.txt com cautela para priorizar o rastreamento de páginas no seu site.

Crawl Demand

Crawl Demand ou Demanda de Rastreamento é uma medida que indica a frequência com que o Googlebot solicita o rastreamento de páginas do seu site. Essa medida é baseada no número de páginas novas e atualizadas no site, além da importância e relevância dessas páginas.

São diversos os fatores que influenciam o Crawl Demand, como o volume de tráfego do site, a quantidade de conteúdo atualizado regularmente, a qualidade do conteúdo e a autoridade do site. Quanto mais importante e relevante for o conteúdo do site, maior será a demanda de rastreamento.

Mais uma vez, se a demanda para rastrear seu site for baixa, seu Crawl Budget será afetado. Por isso é importante ter um site atualizado com conteúdo relevante e de qualidade, para que o Crawl Demand seja mais alto.

Quando se preocupar com o Crawl Budget?

Se você possui um site grande, com milhares de páginas, precisa dar uma atenção especial ao Crawl Budget. Isso porque são mais informações para o Googlebot rastrear e, se ele tiver dificuldades para realizar o rastreio e indexação, o ranqueamento do seu site no Google pode ser afetado negativamente.

Além disso, existem alguns outros sinais que mostram que seu site pode estar tendo problemas de Crawl Budget: 

  • Páginas do site estão sendo indexadas com conteúdo desatualizado; 
  • Páginas do site não estão sendo indexadas com frequência ou estão sendo indexadas com atraso; 
  • Existem bastante páginas com o status “Detectada, mas não indexada no momento” no seu relatório de Indexação das páginas do Google Search Console;
  • O tráfego do seu site está caindo e não há nenhuma explicação clara para isso. 

No geral, se você não tiver esses problemas, dificilmente enfrentará dificuldades com o Crawl Budget. No entanto, é sempre importante ficar de olho nos fatores que podem afetar o tempo de rastreamento do seu site. 

Principais fatores que afetam o Crawl Budget

Para reforçar sua estratégia de SEO, confira quais são os principais fatores que podem afetar o Crawl Budget e, consequentemente, o bom ranqueamento orgânico do seu site:

Tamanho do site

Em geral, sites maiores, complexos e com muitas páginas e/ou arquivos, podem ter o Crawl Budget afetado, diminuindo o tempo de dedicação do Googlebot no rastreamento. Porém, mais uma vez evidenciamos a importância de um conteúdo de qualidade. 

Para minimizar os impactos negativos do tamanho do site no Crawl Budget, é importante garantir que todas as páginas sejam relevantes e de alta qualidade e evitar conteúdo duplicado sempre que possível.

Velocidade de resposta do servidor

Se o site estiver hospedado em um servidor lento, o Googlebot gastará mais tempo para rastrear cada página. Isso também pode diminuir o Crawl Budget. 

Quando o Googlebot tenta rastrear uma página, ele envia uma solicitação para o servidor do site, que deve responder com os dados da página. Se o servidor demorar muito para responder, o Googlebot pode ter que esperar e, consequentemente, gastar mais tempo rastreando cada página.

Além disso, se o servidor estiver lento, o Googlebot pode não ser capaz de rastrear todas as páginas em uma única sessão de rastreamento. Isso significa que algumas páginas podem não ser rastreadas até a próxima vez que o crawler acessar o seu site, o que pode afetar a atualização de um conteúdo no Google.

Para evitar este problema, é importante otimizar o desempenho do servidor. Inclua a configuração adequada do servidor web, use um provedor de hospedagem confiável e adequado para a quantidade de visitantes do seu site e uma CDN. Utilize também técnicas de cache para reduzir o tempo de carregamento das páginas. Também é importante compactar imagens e minificar códigos para reduzir o tamanho de arquivos e melhorar a velocidade de resposta do servidor. 

Tipo de página

O tipo de página pode afetar o Crawl Budget de uma maneira significativa. Páginas com conteúdo dinâmico e interativo (como aquelas que usam tecnologias como JavaScript, AJAX e outras) podem ser mais difíceis para o Googlebot rastrear, pois elas precisam ser renderizadas para que o robô tenha acesso ao seu conteúdo.

Além disso, páginas que contêm uma grande quantidade de imagens, vídeos e outros arquivos de mídia podem consumir mais recursos de rastreamento, diminuindo o Crawl Budget. Isso ocorre porque o Googlebot precisa baixar e analisar todos os arquivos de mídia em uma página, o que pode levar mais tempo do que simplesmente rastrear uma página com conteúdo exclusivamente em texto HTML.

Páginas com conteúdo estático e simples, como aquelas que contêm principalmente texto e algumas imagens, tendem a ser mais fáceis para o Googlebot rastrear e, portanto, podem consumir menos da cota de rastreamento disponível.

Arquitetura do site

A arquitetura do site determina a facilidade de navegação e o acesso às diferentes páginas do site. Se a arquitetura não for bem feita, o Googlebot pode ter dificuldade para rastrear as páginas mais importantes. 

Veja a seguir alguns fatores específicos de arquitetura que podem afetar o Crawl Budget: 

  • Estrutura de URLs: as URLs devem ser claras e seguir uma hierarquia, assim o Googlebot consegue entender melhor a estrutura do site para encontrar as páginas mais relevantes; 
  • Profundidade das páginas: quanto mais profunda uma página estiver em sua hierarquia de navegação, mais difícil será para o Googlebot encontrá-la e rastreá-la; 
  • Sitemaps: os sitemaps fornecem uma lista completa de todas as páginas do site e podem ajudar o Googlebot a rastrear de forma mais eficiente;
  • Links Internos: links internos bem estruturados e distribuídos por toda a página podem ajudar a aumentar a visibilidade e acessibilidade das páginas, enquanto links quebrados ou links internos que levam a páginas inexistentes ou desatualizadas podem prejudicar a capacidade do Googlebot de rastrear o site.

Links internos

Quando produzir um conteúdo para o seu site, é importante que ele tenha links de outras páginas apontando para ele. Uma página orfã (sem links internos) tende a ser rastreada com uma frequência menor. 

Frequência de atualização

Um site que é atualizado com frequência, também terá mais rastreios e consequentemente um tempo maior de dedicação do Googlebot. Isso porque o Google entende que você atualizou as informações de conteúdo do site e, portanto, precisa rastreá-las para entregar aos usuários a informação mais nova possível. 

Erros de rastreamento

Se o site tiver erros de rastreamento, como página não encontrada (404) e erro interno de servidor (5xx), o Googlebot irá gastar tempo rastreando essas páginas ao invés de suas páginas boas, afetando a cota total de rastreamento. 

É importante corrigir esses erros o mais rápido possível para garantir que o Googlebot possa rastrear todas as páginas relevantes do site de forma eficiente e que a cota de rastreamento seja utilizada da maneira ideal.

Como verificar o Crawl Budget no Google Search Console?

Mas afinal, como saber o Crawl Budget de um site? Te explicamos! O Google oferece uma ferramenta, o Search Console, que conta com diversos relatórios específicos sobre seu site, inclusive para cota de rastreamento.

Para verificar o Crawl Budget no Google Search Console, siga o tutorial abaixo: 

  1. Faça login no Google Search Console e selecione o site que deseja verificar;
  2. No menu à esquerda, clique em “Configurações”;
  3. Em “Estatísticas de rastreamento” clique em “Abrir relatório”;
  4. Você verá o número total de páginas que o Googlebot rastreou em seu site nos últimos 90 dias. Esse número inclui todas as páginas rastreadas, incluindo aquelas que foram bloqueadas por diretivas do robots.txt;
  5. Abaixo do número total de páginas rastreadas, você verá um gráfico que mostra quantas páginas o Googlebot rastreou diariamente em seu site nos últimos 90 dias;
  6. Role para baixo para ver uma lista de erros de rastreamento em seu site, se houver. Corrigir esses erros pode ajudar a melhorar o Crawl Budget do seu site.

Saiba que este relatório é destinado a usuários avançados, que possuem sites com mais de mil páginas. Para obter o maior aproveitamento do relatório de rastreamento, confira a página explicativa do Suporte Google

Como priorizar o rastreamento de páginas mais importantes?

Existem várias maneiras de priorizar o rastreamento de páginas mais importantes do seu site. Confira a seguir:

Identifique as páginas mais importantes

Tenha definidas as páginas mais importantes do seu site, com as informações mais relevantes para os visitantes. Assim, é possível concentrar sua estratégia de SEO nessas páginas para que elas estejam sempre bem construídas e rastreadas com frequência. 

Otimize o conteúdo das páginas importantes

O conteúdo das páginas mais importantes deve ser bem otimizado. Aqui entram as famosas boas práticas de SEO: uso adequado de palavras-chaves, texto claro e conciso, com informações precisas para as pessoas, hiperlinks internos e externos, entre outras dicas que você pode conferir no próprio site do Google.

Melhore a linkagem interna priorizando as páginas importantes

Páginas com muitos links internos, ou seja, hiperlinks para ela de outras páginas do seu site, tendem a ser rastreadas com mais frequência pelo Googlebot. Portanto, é bem importante ter uma estratégia de linkagem interna eficaz, priorizando as páginas mais importantes do site em sua arquiterura.

Atualize as páginas com frequência

Sempre que possível atualize suas páginas. Quando seu conteúdo é atual, o Googlebot irá atualizar com mais frequência a fim de exibir resultados de pesquisa que realmente ajudem o usuário.

Robots.txt

Com o arquivo robots.txt, você pode bloquear o acesso a seções menos importantes do seu site e, assim, direcionar a atenção do Googlebot para as áreas mais importantes. 

Você pode fazer isso adicionando diretivas “Disallow” ao seu arquivo robots.txt para bloquear o acesso a seções específicas do seu site. 

Por exemplo, se você tiver um fórum que não é muito importante para o seu site, poderá bloqueá-lo adicionando a diretiva “Disallow: /forum/” ao seu arquivo robots.txt. 

Você pode inclusive testar mudanças no seu arquivo robots.txt antes de colocar as alterações no seu site. 

Sitemap.xml

Já o sitemap XML é uma ferramenta valiosa para ajudar a garantir que todas as suas páginas importantes sejam rastreadas pelo Googlebot. 

É importante ter um sitemap XML bem estruturado, com todas as páginas importantes incluídas. Ao incluir todas as páginas importantes em seu sitemap XML, você pode garantir que elas sejam rastreadas e indexadas com mais frequência pelo Google.

Mas, é importante ter em mente que só usar essas estratégias de Robots.txt e Sitemap.xml não é o suficiente para ter um bom Crawl Budget. É preciso analisar com frequência seu rastreamento pelo Search Console e garantir que suas principais páginas estão devidamente otimizadas. 

O Google tem um guia específico para proprietários de site gerenciarem sua cota de rastreamento

Perguntas frequentes

Quando o assunto é Crawl Budget, há algumas perguntas que sempre pipocam na nossa mente. Veja a seguir as respostas para algumas delas:

A velocidade do site afeta minha cota de rastreamento? E os erros?

Sim, a velocidade do site pode afetar sua cota de rastreamento. Um site lento demanda mais tempo de rastreamento por página, o que faz com que o Crawl Budget seja menor. 

Os erros como página não encontrada ou erro interno de servidor também afetam negativamente o Crawl Budget. Ao se deparar com essas situações em um site, o Googlebot tende a diminuir a frequência de rastreamento da página ou até interromper completamente. 

O rastreamento é um fator de classificação?

Não, o rastreamento não é um fator direto de classificação de um site. No entanto, ele pode indicar um problema que seja limitante para o seu ranqueamento. É importante ter seu site rastreado com frequência para que as páginas sejam devidamente indexadas e acessadas por meio da pesquisa no Google. 

O rastreamento é um pré-requisito fundamental para que seu site seja indexado e, portanto, apareça nos resultados de pesquisa. Se o Google não conseguir rastrear seu site, ele não será indexado e, consequentemente, não aparecerá nos resultados de pesquisa. Portanto, o rastreamento é uma etapa crucial para o SEO.

URLs alternativas e conteúdo incorporado contam na cota de rastreamento?

Sim, URLs alternativas e conteúdo incorporado contam na cota de rastreamento do seu site.

As URLs alternativas são páginas que possuem a mesma função, mas com diferentes URLs. Por exemplo, se você tiver várias versões da mesma página em diferentes idiomas, todas as URLs serão rastreadas e usarão o seu Crawl Budget. O mesmo vale para conteúdo incorporado, como vídeos, imagens ou tweets incorporados em suas páginas. Todo o conteúdo incorporado será rastreado pelo Google e contabilizado na cota de rastreamento.

Porém, o Google prioriza o rastreamento das páginas principais, que estão presentes em mais links internos e que sejam relevantes para as pessoas. Portanto, se você tem muitas URLs alternativas ou conteúdo incorporado, pode acontecer do Googlebot rastrear essas páginas com uma frequência menor, causando um impacto na frequência com que seu conteúdo é atualizado nos resultados de pesquisa. 

Por isso, é importante só ter URLs alternativas e conteúdo incorporado que sejam relevantes para as pessoas que visitam seu site. 

Posso controlar o Googlebot com a regra crawl-delay?

Geralmente não. O crawl-delay é uma estratégia para otimizar o rastreamento do seu site. É uma instrução adicionada ao arquivo robots.txt para instruir robôs a esperar um tempo (em segundos) para rastrear uma nova página. No entanto, geralmente o Google não segue o crawl-delay porque prefere rastrear páginas o mais rápido possível para que os resultados de pesquisa estejam sempre o mais atuais possíveis. 

O craw-delay pode ser mais eficaz para outros bots de rastreamento. No caso do Google, a empresa recomenda que você utilize o Search Console para monitorar o rastreamento do site e identificar possíveis problemas. Por lá você pode, por exemplo, remover páginas específicas dos resultados de pesquisa. 

A regra nofollow afeta a cota de rastreamento?

Não. A regra nofollow é uma instrução adicionada a um link para que os motores de busca não façam o rastreamento de uma determinada página. 

Quando o Googlebot rastreia uma página, ele segue todos os links presentes nela, incluindo aqueles com a regra nofollow. No entanto, o Google não passa relevância por esse link, o que significa que ele não conta o link para a pontuação de PageRank da URL de destino.

A regra nofollow é uma maneira útil de controlar o fluxo de PageRank dentro do seu site e de sinalizar aos motores de busca que determinados links não são confiáveis ou não são relevantes para o conteúdo da página. No entanto, é importante usar a regra “nofollow” com moderação e apenas em links que não sejam importantes para a estrutura e o conteúdo do seu site.

As URLs não permitidas pelo robots.txt afetam minha cota de rastreamento? 

Não. O Google não entra nas rotas presentes no arquivo robots.txt, portanto, o que está bloqueado nele não consome a cota de rastreamento. 

Inclusive, bloquear áreas de baixo valor no site pode gerar um aumento do Crawl Budget, já que o Googlebot irá verificar as páginas boas do site com mais frequência.

Conclusão

Hoje, aprendemos como a cota de rastreamento é um fator importante na hora de montar uma estratégia de SEO. Mesmo não sendo um fator direto de classificação, erros de rastreamento podem levar a problemas que afetem diretamente o ranqueamento de um site.

Portanto, para maximizar o Crawl Budget, é importante garantir que seu site:

  • Seja rápido;
  • Atualizado regularmente;
  • Tenha conteúdo de alta qualidade e relevante;
  • Esteja livre de erros de rastreamento (4xx, 5xx, etc);
  • Tenha uma boa arquitetura e links internos para páginas importantes;
  • Não contenha URL ou conteúdo duplicado e não tenha spam. 

Precisa de uma ajuda para colocar em prática essas diretrizes e conquistar um excelente ranqueamento orgânico? Conte com a equipe especializada da SEO Happy Hour. Você pode solicitar uma proposta para o seu site pelo formulário disponível em nosso site, via e-mail [email protected] ou pela nossa página no Linkedin. Até a próxima!

  • Rafael Simões

    Rafael Simões

    CEO da SEO Happy Hour e especialista com mais de 13 anos de experiência em SEO. Ajudo empresas a aumentarem seu tráfego, vendas e leads com estratégias de SEO e CRO.

Comentários

0 Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *