Sem o Googlebot, SEO não funciona. Ele é o robô do Google que faz o rastreamento de URLs para que elas possam aparecer nos resultados orgânicos.
Ele é um programa que roda nos servidores do Google e analisa o seu conteúdo, relata erros de rede, redirecionamentos, e outros detalhes que possam prejudicar a visibilidade das páginas.
Martin Splitt, porta-voz do Google, e Gary Illyes, engenheiro do buscador, compartilharam em um blog post os detalhes sobre como o robô funciona. Veja os principais pontos traduzidos abaixo.
O que é rastreamento?
Rastreamento é o processo de baixar o conteúdo de páginas já existentes ou recém-descobertas. Esse trabalho é feito por crawlers (também chamados de rastreadores, robôs, spiders, etc.), como o Googlebot.
Em resumo, acontece assim:
O Googlebot descobre a URL (uma das formas mais comuns é através de links);
Faz uma requisição HTTP para o servidor do site;
Prossegue de acordo com o código de resposta HTTP, seguindo redirecionamentos, lidando com erros e analisando o conteúdo da página.
Se estiver tudo certo, o rastreamento acontece. Depois dessa etapa, o Google decide se a página será indexada ou não. Inclusive, parte do trabalho de SEO é tornar o site otimizado para que este processo ocorra sem erros.
A versão de página que o robô acessa é bem diferente da que aparece para os humanos. Para ele, o principal aspecto é o código-fonte, incluindo HTML, JS e CSS.
Como o Googlebot funciona para rastrear recursos de páginas?
Apesar de ver versões diferentes de página, o Googlebot acessa os sites de forma parecida com um ser humano.
Quando alguém abre um site no navegador, o processo que acontece nos bastidores é o seguinte:
O navegador baixa a URL principal, que contém o arquivo HTML;
Os dados iniciais da página contém referências a recursos JavaScript e CSS, imagens e vídeos;
O navegador baixa tudo e exibe a versão renderizada da página ao visitante.
Quando o Googlebot abre um site, faz parecido:
Baixa o HTML da página;
Encaminha os dados para um Web Rendering Service (WRS);
O WRS baixa os recursos referenciados no HTML da página;
O WRS exibe a versão de página que o Googlebot lê.
Ou seja, é um processo parecido, mas otimizado para rastrear uma infinidade de páginas diariamente.
Alguns detalhes relevantes do processo:
O WRS busca armazenar dados de CSS e JS das páginas renderizadas por até 30 dias para facilitar o rastreamento;
Quando o WRS não consegue acessar recursos críticos para renderização, o Google pode ter problemas em exibir a página nos Resultados Orgânicos.
Gerenciando o crawl budget
Crawl budget é a “cota de rastreamento” de um site. Significa basicamente a quantidade de páginas e recursos que o Googlebot consegue acessar. Quando passa da cota, ele para o processo e retoma posteriormente.
Por isso, donos de sites precisam gerenciar quais recursos são rastreados e como eles influenciam o crawl budget. É um ponto a se considerar apenas para sites grandes, com milhares de páginas, e deve ser feito com apoio de profissionais em SEO e desenvolvimento.
Algumas boas práticas recomendadas por Martin Splitt e Gary Illyes são:
Use o mínimo de recursos possíveis para oferecer boa experiência de página. Por exemplo, reduza ou otimize os arquivos JS;
Armazene recursos fora do domínio principal do site, usando CDN ou algum subdomínio, para “distribuir” o crawl budget entre eles;
Evite mudar a URL de arquivos do site sem necessidade, e use parâmetros de cache busting (como códigos ?v=2 ao final da URL) com cautela. Tudo isso fará com que o Google precise visitar novamente as URLs, ao invés de usar o cache do WRS, o que aumenta o gasto de crawl budget.
Como ver o que o Googlebot está rastreando no meu site?
Existem duas formas de saber quais páginas o robô está visitando: seus logs de servidor e o Google Search Console.
Nos logs de servidor, você verá todas as URLs que foram requisitadas por servidores e rastreadores, aí, é só buscar os IPs do Google.
Porcentagem de páginas novas descobertas e rastreamentos em páginas já conhecidas;
Entre outras informações relevantes.
__
Martin Splitt e Gary Illyes estão publicando semanalmente novos artigos com alguns detalhes técnicos sobre como o Googlebot funciona. E você acompanha tudo por aqui! Siga-nos no LinkedIn e no YouTube, acompanhe nossa newsletter e podcast e não perca nada.
Elyson Gums é redator na SEO Happy Hour. Trabalha com redação e produção de conteúdo para projetos de SEO e inbound marketing desde 2014, em segmentos B2C e B2B. É bacharel em Jornalismo (Univali/SC) e mestre em Comunicação Social (UFPR).
Comentários