O relatório de estatísticas de rastreamento permite monitorar a atividade do Googlebot no seu site. Ou seja, entender como e quando os robôs do Google estão acessando as suas URLs.
É uma tela pouco conhecida, que fica quase escondida dentro do Search Console. Ali, é possível fazer análises técnicas avançadas, como otimização de crawl budget, diagnóstico de quedas e lentidão nos servidores, entre muitas outras.
Neste novo capítulo do guia da SHH sobre o Search Console, você aprenderá tudo sobre o relatório de estatística de rastreamento. Veja como interpretar o relatório, em quais situações ele é útil e quais são os indicadores mais importantes.
Como funcionam as estatísticas de rastreamento do Google Search Console?
Antes de falar sobre o relatório em si, é importante entender como o rastreamento funciona no Google. Sem ele, nenhuma página aparece no buscador.
De forma resumida, o rastreamento é o processo de baixar os elementos de uma URL, como HTML, CSS, JS e imagens. Se o conteúdo for considerado relevante, é adicionado ao índice, o que se chama indexação.
O rastreamento é feito por um robô chamado Googlebot. Ele descobre URLs, envia uma requisição para o servidor do site, acessa o conteúdo, segue links externos e redirecionamentos.
Há várias formas de controlar quais partes do site um rastreador pode ou não acessar. Uma das principais é o arquivo robots.txt, que explica, em formato legível para máquinas, quais URLs podem ser rastreadas.
Em sites menores, o Googlebot consegue rastrear todas as páginas disponíveis. Nos sites grandes, com centenas de milhares ou milhões de páginas, não é assim: existe um crawl budget, ou “taxa de rastreamento”, que é um limite de páginas que serão rastreadas.
O relatório de estatísticas de rastreamento do Search Console apresenta dados sobre tudo isso. Ele explica quais páginas o Googlebot tentou acessar, quantas vezes, quais tipos de elementos foram baixados, entre outros.
Ele é a sua “central” para analisar como o Googlebot acessou o seu site nos últimos meses.
Quando usar o relatório de estatísticas de rastreamento?
Este relatório nem sempre faz parte da sua rotina. Ele é importante, mas tem um escopo bem mais limitado do que outras partes do GSC, como o relatório de desempenho na web.
Geralmente, os sites grandes usam mais. Quando um site tem milhões de páginas, parte do trabalho de SEO é gerenciar o rastreamento, para gastar o crawl budget com as URLs que realmente importam.
Sites pequenos não têm essa necessidade. Esse tipo de portal usa o relatório para obter dados sobre problemas técnicos pontuais, como picos de erros 5xx.
Analisando o relatório de estatísticas de rastreamento
Para acessar o relatório, basta acessar Configurações no menu lateral do Search Console. Você verá uma seção de rastreamento, com a opção de abrir as estatísticas.
Clicando ali, aparece uma tela com um gráfico de barras e várias listas. Estas são as estatísticas de rastreamento do seu site nos últimos 90 dias.
Os elementos do relatório são os seguintes:
Quantidade total de requisições: número de vezes que o Googlebot acessou o seu site;
Tamanho dos recursos processados: é a quantidade de informações que o robô leu e interpretou;
Tempo de resposta do servidor: o tempo para processar cada requisição HTTP do Googlebot;
Domínios e subdomínios: informações sobre cada subdomínio do seu site (www.exemplo.com.br; blog.exemplo.com.br, etc.);
Códigos de resposta HTTP: porcentagem de requisições que deram certo e errado (e os motivos);
Propósito do rastreamento: se o Googlebot estava encontrando página nova, ou rastreando uma URL que ele já conhecia;
Tipo do Googlebot: se foi o Googlebot para celular, computador, imagens ou algum outro que acessou o site.
As análises são feitas a partir do cruzamento desses dados e métricas.
Detalhes importantes:
Não há filtros para o gráfico de barras, igual acontece em outros gráficos do GSC. Também não é possível definir ou comparar datas, apenas ver os últimos 3 meses;
O gráfico de barras mostra apenas quantidade total de requisições, tamanho dos recursos processados e tempo de resposta do servidor;
Cada item do relatório é paginado. Informação bobinha, mas fácil de passar batida!
Veja abaixo os detalhes sobre cada item e qual a sua importância para o SEO técnico do seu site.
Quantidade total de requisições
Autoexplicativo: é quantas vezes o Googlebot tentou acessar o seu site, incluindo as URLs e recursos usados pelas páginas, como imagens hospedadas no seu domínio.
Tentativas mal-sucedidas também são contabilizadas, nos seguintes casos:
Requisições incompletas porque o arquivo robots.txt estava indisponível;
Falhas causadas por problemas de DNS ou disponibilidade do servidor;
Muitos fatores podem influenciar um aumento ou queda na quantidade de requisições. Os mais óbvios são mudanças no código-fonte do site e aumento no número de URLs no domínio.
Em sites grandes, é interessante estar atento à aspectos técnicos como navegação facetada, conteúdo duplicado e soft 404. Eles podem aumentar o número de requisições, gastando o crawl budget sem necessidades.
Tamanho dos recursos processados
É a quantidade de bytes baixados do seu site durante o rastreamento. Se um recurso for usado por muitas páginas, ele será baixado apenas da primeira vez, armazenado em cache e não será contabilizado durante o rastreamento das demais URLs.
Picos no gráfico podem indicar páginas pesadas, que tornam o rastreamento mais lento. Para saber se é o caso, compare com o número total de requisições e o tempo de resposta do servidor.
Em sites pequenos e médios, isto raramente será um problema.
Tempo médio de resposta do servidor
É o tempo até o servidor enviar o primeiro byte de informação para o Googlebot, depois que ele faz uma requisição de rastreamento. Cada recurso da página (como HTML e CSS) é contado separadamente. O valor é medido em milissegundos (ms).
O tempo médio de resposta deve ser o mais baixo possível:
De preferência, sempre próximo de 100 ms;
Chegar perto ou passar de 1000 ms causa problemas de SEO.
Quando o servidor demora muito, o Googlebot rastreia com menos eficiência. Ele perde mais tempo em cada página, pode diminuir o número de requisições e, em alguns casos, deixa elementos importantes das páginas para trás.
Tudo isso limita a presença nos buscadores e nas experiências de IA do Google.
Domínios e subdomínios
A seção de hosts e domínios traz duas informações principais sobre o rastreamento:
Quais domínios e subdomínios foram rastreados;
Problemas de disponibilidade em cada um.
Domínios e subdomínios são os endereços do seu site:
O domínio é o principal, como seusite.com.br;
O subdomínio é uma ramificação do site, como blog.seusite.com.br.
O relatório de estatísticas de rastreamento do GSC mostra informações detalhadas de até 20 subdomínios. É possível explorar cada um deles separadamente, basta clicar no nome.
Mas, atenção: os subdiretórios não aparecem aqui. Ou seja, não é possível filtrar dados de rastreamento de seções como seusite.com.br/blog. Nesse caso, aparece tudo junto do domínio principal, seusite.com.br.
Para cada domínio, são exibidos os status de disponibilidade. Eles podem ser:
Sem problemas: nenhuma dificuldade de rastreamento nos últimos 90 dias;
Problemas no passado: um problema relevante ocorreu nos últimos 90 dias, mas aconteceu há mais de uma semana;
Problema recente: o Google detectou um problema relevante na última semana.
Se o status não estiver verde, tem algo que você precisa olhar. 👀
Pode ser algo passageiro, como uma manutenção de servidor, ou uma indisponibilidade permanente que precisa ser corrigida.
Os problemas de disponibilidade que influenciam o status de disponibilidade são:
Falha para ler o arquivo robots.txt (arquivo vazio ou retornando um status 404, de página não encontrada);
Problema no DNS, como ausência de resposta durante o rastreamento;
Conexão com servidor, que estava indisponível ou retornou uma resposta incompleta para o Googlebot.
Se algum deles acontecer, o Googlebot simplesmente para de rastrear e tenta de novo mais tarde.
Códigos de resposta HTTP
Sempre que o Googlebot tenta acessar uma página, o servidor envia um código de 3 números para o navegador, indicando se a ação deu certo.
Nesta tela, você verá quais códigos foram encontrados durante o rastreamento.
O Google tem uma classificação de respostas HTTP boas, potencialmente boas e ruins.
Os códigos “bons” não exigem nenhuma ação. Eles indicam que a requisição deu certo e o robô conseguiu rastrear a página. São eles:
OK (200): indica que a solicitação foi bem-sucedida e o Googlebot pode rastrear a página;
Movido permanentemente (301): é um redirect permanente. O Googlebot seguirá apenas a página de destino;
Movido temporariamente (302): é um redirect temporário. O Googlebot seguirá apenas a página de destino;
Sem modificação (304): o código de status não mudou desde a última requisição de rastreamento.
Códigos potencialmente bons exigem investigação. Não é uma mensagem de erro, mas pode ser um comportamento inesperado, então tem que olhar só pra ter certeza.
O único código dessa natureza é o 404 (conteúdo não encontrado). Se o conteúdo realmente não existe no site, não precisa resolver. Mas, se for um link quebrado – uma URL que existe, mas por alguma razão está retornando 404, aí precisa corrigir.
Por fim, os códigos ruins são respostas HTTP que precisam ser corrigidas. Ela indica algum erro de rastreamento, que provavelmente impedirá aquela URL de aparecer no Google. São eles:
Não autorizado (401/407): a página foi bloqueada pelo Googlebot. Verifique a URL e desbloqueie, ou adicione-a à uma diretiva do robots.txt;
Erro de servidor (5xx): ocorrem quando o servidor está indisponível. Se for uma instabilidade momentânea, não tem problema. Se for permanente, precisa corrigir;
Erros de cliente (4xx): é um conjunto de erros que indica que o navegador não pôde concluir a solicitação de rastreamento. Pode ser conteúdo bloqueado, proibido, servidor com excesso de requisições, entre outras.
Tipos de arquivos rastreados
Indica quais arquivos o Googlebot rastreou, em porcentagem.
Também aparece “outros”, que indica qualquer outro formato, incluindo redirects; e “desconhecido”, que contabiliza requisições mal sucedidas.
Esse dado é usado para identificar problemas pontuais. Por exemplo, se o tempo de resposta do servidor for alto, observe quais arquivos estão sendo rastreados. Pode ser que o robô esteja gastando recursos com imagens desnecessárias ou seguindo cadeias de redirecionamento muito longas.
Propósito do rastreamento
Aqui, você pode ver por que o Googlebot acessou cada URL.
Podem ser duas razões: descoberta, que é o primeiro rastreamento daquela página, ou atualização, que é o “rerastreamento” de uma página já conhecida.
É um dado interessante, mas que tem aplicações apenas em casos específicos, como:
Picos de descoberta, que podem indicar rastreamento de conteúdos inúteis para SEO;
Queda em atualizações, que podem indicar que o Google está rastreamento menos o site;
Se você atualiza conteúdos, mas o Google demora para rerastrear, você precisa verificar se essas URLs estão no sitemap.
Tipo do Googlebot
O Googlebot tem vários “modelos”, cada um mais adequado para uma tarefa, como smartphone, desktop, Ads, Video, entre outros. Nesta seção você pode ver quais deles acessaram as suas páginas nos últimos 90 dias.
É um dado interessante, mas que tem pouco valor prático. Quase sempre o rastreamento acontece pelo Googlebot smartphone, seguido pelo desktop, sem segredos.
Quais análises podem ser feitas no relatório de estatísticas de rastreamento?
Os elementos do relatório permitem monitorar o crawl budget e a eficiência de rastreamento das suas páginas. Quanto mais URLs você tem, mais importante é fazer esse controle de forma detalhada, pois em escala, até os pequenos ajustes podem fazer a diferença.
Entre as possibilidades de análise, estão:
Identificar se alguma melhoria técnica levou o site a ser mais ou menos rastreado;
Perceber quais seções do site são mais ativamente monitoradas pelo buscador;
Confirmar se as seções corretas do site, como áreas internas, estão sendo devidamente bloqueadas;
Identificar se os elementos das páginas, como o JS, estão sendo rastreados corretamente;
Descobrir quando e se houve indisponibilidades do seu servidor;
Verificar se o crawl budget do site está sendo gasto com recursos úteis;
Identificar a qualidade geral do servidor, por meio de instabilidades e erros 5xx;
Confirmar se o servidor tem capacidade de lidar com o volume de requisições atuais;
Certificar que os user agents do Googlebot não foram bloqueados por engano no seu site.
Como você pode ver, são tarefas técnicas bem específicas. Ou seja, a menos que você perceba problemas de visibilidade, não há razão para abrir o relatório de estatísticas de rastreamento o tempo inteiro.
Logicamente, tudo depende da estrutura do seu site. Em certos projetos, basta acessar uma vez por mês, em outros nem isso.
___
Para lidar com questões complexas de SEO, o melhor é contar com o apoio de profissionais da área. A SEO Happy Hour é especialista no assunto e tem experiência guiando as otimizações de portais de escala nacional e internacional.
Elyson Gums é redator na SEO Happy Hour. Trabalha com redação e produção de conteúdo para projetos de SEO e inbound marketing desde 2014, em segmentos B2C e B2B. É bacharel em Jornalismo (Univali/SC) e mestre em Comunicação Social (UFPR).
Comentários