Ao rastrear uma página, o Google busca o arquivo HTML bruto e tenta interpretá-lo. Ele lê o código e usa informações sobre a página, como título, descrição, conteúdo e links, para decidir como indexar e ranquear.
É um processo simples e que funciona mesmo se o HTML não estiver otimizado.
Os navegadores e o Googlebot conseguem lidar com marcações incompletas, com elementos faltando ou fora de lugar.
A exceção são erros específicos, que podem fazer o Googlebot ignorar partes da página (ou ela inteira). Por exemplo, tags importantes fora de lugar, JS que contradiz o HTML ou scripts mal configurados.
Gary Illyes e Martin Splitt, engenheiros e porta-vozes do Google, explicaram em um podcast quais erros são esses. Veja abaixo um resumo traduzido dessa conversa.
Como o HTML é interpretado em SEO?
Em geral, os navegadores e o Googlebot leem o HTML de forma parecida. Eles não carregam o arquivo de uma vez – em vez disso, passam por ele de cima a baixo, executando progressivamente as marcações.
O processo ocorre da seguinte forma:
O HTML começa a ser lido, primeiro <head>, depois <body>;
Em paralelo, são buscados os recursos necessários para renderizar a página (imagens, folhas de estilo, scripts);
Se houver uma tag <script> sem os elementos async ou defer, ela é executada imediatamente;
Depois de executar a tag, o restante do arquivo volta a ser lido;
A página é renderizada e aparece para o visitante (ou para o Google).
Isso significa que erros que confundiriam um navegador, também podem confundir o Googlebot. E que o local em que você adiciona as suas tags pode influenciar diretamente a performance do seu site, o que acarreta em um impacto indireto para o SEO.
Felizmente, o HTML não precisa estar perfeitopara que possa ser lido. Mesmo marcações muito ruins podem ser lidas. Para SEO, o importante é a posição de alguns tipos específicos de tags, como os metadados.
Onde inserir os metadados das suas páginas
O arquivo HTML é dividido em duas partes, <head> e <body>. Os metadados devem estar sempre no <head>. Do contrário, o Googlebot simplesmente os ignora.
Por padrão, cada documento é dividido em duas seções:
<head>, ou cabeçalho, é o lugar dos metadados, que são informações complementares sobre a página. Tag canonical, hreflang e metadescription são exemplos;
<body>, ou corpo, é o lugar do conteúdo exibido aos visitantes, como texto, imagens e links.
Os metadados não aparecem para os visitantes, mas oferecem diversas informações que o Google usa para ranquear páginas. Se você oferecer bastante contexto, o buscador consegue entender melhor para quais consultas você deveria aparecer.
O importante é não misturar as tags de cabeçalho com os elementos de corpo.
Se o navegador ou o Googlebot estão lendo o cabeçalho e encontram uma tag que não deveria estar ali, como <p>, entendem que o corpo já começou. Eles fecham o <head> imediatamente e ignoram tudo o que vem depois daquela tag intrusa.
Ou seja, mesmo que o metadado esteja ali, será simplesmente ignorado pelo Google, pois teoricamente ele faz parte do <body>, que tem outra finalidade. Há apenas algumas exceções, como atributos de links.
Atenção aos metadados inseridos via JavaScript
Manipular tags usando JavaScript pode causar sérios problemas de SEO. Se a tag ficar diferente do que está no HTML bruto, o Googlebot fica confuso.
O exemplo mais comum é a tag canonical, que indica qual página é a principal, dentro de um grupo com várias versões do mesmo conteúdo. Se o HTML indica uma URL como canônica, mas o JavaScript indica outra, o Google não sabe qual é a correta.
Ele precisa fazer um julgamento sobre qual é a certa. Se errar, a página principal perde autoridade e uma versão de baixo valor pode ser indexada no lugar.
A recomendação de Martin Splitt é não declarar tags críticas via JS, para evitar essas contradições. Vale para canônica e para metadados como meta robots, title e metadescription e dados estruturados.
Se você estiver otimizando um SPA (Single Page Application, ou aplicação de página única), talvez seja necessário usar JavaScript mesmo. Nesse caso, os metadados manipulados via JS devem ser os únicos disponíveis, para evitar conflitos.
Resource Hints são irrelevantes para o Googlebot
Resource Hints são diretivas para que um navegador realize uma ação em segundo plano, como fazer o pré-carregamento de um arquivo. O Googlebot quase sempre as ignora, já que não precisa se preocupar com a experiência de um visitante.
Essas ações podem afetar a velocidade percebida da página, mas não têm nenhum benefício direto para SEO.
O impacto do HTML semântico em SEO
HTML semântico é a prática de usar tags que descrevem um conteúdo, em vez de usar tags genéricas. Ou seja, em vez de colocar tudo dentro de <div>, usar também <article>, <section>, <nav>, <head>, <footer>, entre outros.
Essa abordagem torna a página mais clara, com uma hierarquia bem definida. Mas, segundo Gary Illyes, o HTML semântico não interfere tanto assim em SEO, já que o Googlebot foi projetado para rastrear páginas bagunçadas também.
Isso significa que um HTML ajeitado não é um fator de ranqueamento direto do Google. Mas não quer dizer que você pode deixar as suas páginas de qualquer jeito.
Por exemplo, imagine uma página em que todos os títulos são heading tags H1.
O Google consegue entender o básico sobre a página. Mas não tem noção sobre o “peso” de cada título – qual é o principal, qual é o secundário e quais são subtópicos. Ou seja, embora leia a página, não é uma leitura tão completa.
Agora, se você listar o título principal como H1, os secundários como H2, e os subtítulos como H3, fica mais simples entender a hierarquia entre as informações. Essa é, inclusive, uma das boas práticas mais tradicionais de SEO.
Fora isso, o HTML semântico influencia diretamente na acessibilidade do site. Leitores de tela e outras tecnologias assistivas precisam de HTML organizado para ler corretamente as páginas.
Portanto, por mais que o Googlebot consiga se virar com um HTML ruim, faça o possível para desenvolver páginas fáceis de ler.
Priorize o que realmente importa
A conclusão geral é que o Googlebot consegue lidar bem com o HTML da maioria dos sites. Ele tenta “imitar” um navegador e consegue lidar com pequenas imperfeições de código.
Portanto, seu foco deve estar nos problemas específicos, como metadados ausentes, performance e experiência de página. É melhor lidar com essas questões do que perder temporesolvendo cada pequeno detalhe do código-fonte do seu site.
Infelizmente, nem sempre é fácil descobrir quais problemas são esses. Se esse é o seu caso, uma auditoria de SEO técnico é a solução dos seus problemas. É uma análise detalhada, feita pelos especialistas da SEO Happy Hour, que mostra quais são as correções mais urgentes para melhorar os seus resultados.
Elyson Gums é redator na SEO Happy Hour. Trabalha com redação e produção de conteúdo para projetos de SEO e inbound marketing desde 2014, em segmentos B2C e B2B. É bacharel em Jornalismo (Univali/SC) e mestre em Comunicação Social (UFPR).
Comentários