Embeddings são representações numéricas de objetos. Por meio deles, os buscadores conseguem entender o significado das palavras. E, com isso, dependem menos de palavras-chave tradicionais para entender quais páginas exibir.
Google, ChatGPT, Perplexity e todas as demais plataformas de LLM ou com experiências de IA usam os embeddings para interpretar e entender o contexto de buscas. Vários outros serviços não relacionados diretamente a SEO também.
Logo, é cada vez mais importante entender como eles funcionam. Neste post, você entenderá a parte teórica e a aplicação prática.
Recomendo já buscar uma xícara de café, porque a teoria é bem densa. ☕
O que são embeddings vetoriais?
Embeddings são representações numéricas de textos, imagens, áudios, ou vídeos. Cada elemento pode ser transformado em sequências numéricas que ficam armazenadas em um espaço comum, como um banco de dados, onde podem ser comparados.
Se os números de dois vetores forem parecidos, os objetos ficam armazenados próximos, pois são semanticamente relacionados.
Agora, se os números forem diferentes, eles ficam distantes, pois as palavras não têm nada a ver.
Por exemplo, “gato” vira um número como “1817287137413241”. Isso informa que é um felino, que tem quatro patas, pelo, várias raças e que é um dos animais domésticos mais comuns.
“Cachorro” seria “1817287181827152”. É uma sequência de números parecida com a do gato, porque também tem várias raças, pelo, quatro patas e é um animal doméstico. Mas tem algumas diferenças, como ser um canino e ser reconhecido como “melhor amigo do homem”.
“Tijolo” teria números completamente diferentes, pois não tem nada a ver com os animais domésticos. E, dentro de um banco de dados, estaria mais distante.
É mais ou menos assim que funciona, mas na prática os embeddings podem ter milhares de números.
A relevância dos embeddings para SEO
Na área de SEO, os embeddings ajudam a entender como os buscadores entendem perguntas e geram respostas.
Palavras, frases, parágrafos ou páginas inteiras podem ser vetorizadas e compreendidas em sua semântica, não em texto puro. Assim, uma LLM sabe que “gato que gosta de lasanha” é o Garfield, ou que “o menino que mora num barril” é o Chaves.
Na prática, significa que a relevância ao cobrir um tópico é quantificável. Dá pra saber, por meio da representação vetorial, o quanto uma página é relevante na cobertura de certo tema.
Também significa que os buscadores não comparam palavras-chave. Você não precisa escrever “Chaves é o menino que mora num barril” na sua página. Ou que “o gato que gosta de lasanha é o Garfield”.
Se você criar boas páginas sobre os personagens, o buscador entende que pode citá-las quando alguém perguntar sobre as características deles, mesmo que o texto exato buscado não esteja presente.
Embedding e vetores são a mesma coisa?
Detalhe importante aqui. Para fins de SEO, você pode considerar embeddings e vetores como a mesma coisa.
Embedding significa que um dado é incorporado em um espaço virtual.
Vetor é a forma de incorporação, como sequência numérica.
Na teoria, os dados podem ser incorporados de outras formas além de vetores. Mas, nas LLMs, geralmente é como vetor mesmo, o que leva os termos a serem usados como sinônimos.
Quais as aplicações dos embeddings?
Como você pode imaginar, diversos sistemas diferentes usam os embeddings.
Entre alguns produtos que provavelmente você usa:
Sistemas de recomendação (Netflix, Spotify);
Buscadores (Bing, Google);
Ferramentas de pesquisa de imagem (Google Imagens);
Chatbots de IA (ChatGPT, Perplexity).
Eles usam os embeddings para indicar conteúdo ou produtos, em aprendizado de máquina, processamento de dados, detecção de erros de digitação, identificação de perfis de consumidores, entre outras.
Para SEO, as aplicações incluem:
Pesquisa semântica, que funciona identificando o significado das frases, não suas palavras-chave;
Classificação, para exibir páginas com atributos de texto semelhantes nas respostas;
Clusterização, para agrupar textos que contenham vetores parecidos;
Interface de conversa, agrupando grupos de frases que podem ser usados para respostas.
Como embeddings e vetores funcionam?
Resumindo bastante o processo:
O conteúdo é transformado em sequências numéricas;
Os números podem ser comparados;
Assim, expressões diferentes, mas que querem dizer a mesma coisa, podem ser agrupadas;
Quanto mais parecidas, mais próximas elas ficam dentro dos bancos de dados vetoriais.
Embeddings com vetores únicos e embeddings multivetoriais
Há várias formas de “vetorizar” um conteúdo.
Em certos casos, cada URL vira um vetor único. Em outras situações, um conteúdo é fragmentado em trechos (chunks, em inglês) e cada chunk vira um vetor. Há situações em que cada frase, ou até mesmo cada palavra pode virar um vetor.
A vantagem de usar mais vetores é que o sistema pode compreender mais informações. No entanto, isso exige mais tempo e recursos para processamento. Recentemente o Google lançou um algoritmo chamado Muvera que otimiza o processo.
Análises de vetores
LLMs e buscadores podem fazer vários tipos de inferência com base na similaridade dos números e em sua proximidade no espaço.
Por exemplo, se você pega os números que representam a palavra rei, subtrai os números da palavra homem, e soma os números que representam a palavra mulher, um sistema entende que a palavra vira rainha.
De forma geral, as análises realizadas em projetos de SEO buscam por similaridades e diferenças entre os dados. É possível comparar músicas e filmes, entender se notícias falam de um mesmo assunto, quais temas parecem pouco relacionados, mas compartilham sentidos, palavras digitadas com erros, entre outros usos.
Medindo a similaridade de vetores
Diversos métodos podem ser usados para analisar o quanto dois ou mais vetores são semelhantes. Essa é a teoria que permite aplicações práticas em projetos de SEO.
Nas minhas pesquisas, as que mais apareceram foram a distância euclidiana e a similaridade de cossenos. Ambas são formas de medir o quão próximos ou separados os vetores estão dentro de determinado espaço.
Na matemática, a distância euclidiana calcula a distância reta entre dois pontos. Já a similaridade de cosseno mede a diferença entre ângulos.
Calculando dois vetores, você pode pensar da seguinte forma:
Se o valor der próximo de 1, então os vetores são próximos e têm significados próximos;
Se o valor for próximo de 0, os vetores não estão relacionados;
Se o valor for próximo de -1, então os vetores estão em posições opostas, demonstrando significados contrários.
Boa, agora que passamos da parte teórica, vamos à prática, com as análises sobre as similaridades de vetores.
Hoje, a melhor ferramenta para esse tipo de tarefa é o ScreamingFrog. Uma de suas atualizações recentes liberou diversas funcionalidades relacionadas à análise semântica, que funcionam por meio de integrações com IA.
As possibilidades incluem:
Representação visual de grupos de conteúdo;
Classificação de páginas;
Mensuração de similaridade e diversidade entre URLs;
Detecção de anomalias.
Tudo isso pode ser usado para mapear palavras-chave, planejar linkagem interna e redirecionamentos, dar apoio a ações de assessoria de imprensa, criar ou identificar topic clusters e mapear redirecionamentos.
Vamos entender um pouquinho mais a seguir.
Mapeamento de termos e tópicos
A análise de embeddings permite identificar quais URLs melhor representam um tópico.
Por exemplo, você pode descobrir que uma URL bem ranqueada não é necessariamente a melhor sobre aquele tema. Isso pode acontecer quando muitas páginas falam sobre temas parecidos e devido a outros fatores de ranqueamento além da qualidade de conteúdo.
Comparando os vetores das suas páginas com aquilo que está ranqueado no Google, você pode encontrar oportunidades para otimizar conteúdos e gerar links. Tudo isso ajuda o buscador a indexar a página “certa”.
Identificação de conteúdo não relacionado ao site
Analisando vetores, você pode identificar facilmente conteúdo que foge da representação semântica principal do seu site.
Em sites grandes, ou que falam sobre temas muito gerais, análises do tipo são interessantes para identificar conteúdos “isolados”, sem muitas conexões com o restante do site.
Por exemplo, um site que cobre mercado financeiro pode encontrar um volume maior de artigos sobre renda fixa do que renda variável ou criptomoedas. Esse tipo de informação pode guiar a criação de novos conteúdos ou a otimização dos que já existem, para que se conectem melhor ao “núcleo” do site.
Também é possível identificar URLs cobrindo temas completamente alheios ao tema principal do site, que podem passar despercebidas.
Relevância de palavras-chave
Analisando a similaridade entre vetores, é possível descobrir o quanto uma URL é relevante para uma determinada palavra-chave. É uma forma de saber se o conteúdo está otimizado sem depender do aspecto léxico (texto exato presente na página).
Você pode rastrear a sua página, os concorrentes, e fazer uma análise de similaridade de cossenos. A URL que tiver mais próxima de 1 é a que melhor se relaciona à intenção de busca.
Otimização de linkagem interna
Links internos são um dos fatores mais relevantes para SEO. Analisando vetores, você pode descobrir quais páginas falam sobre o mesmo tema, para fazer os links.
Esse tipo de análise funciona bem em escala, quando você tem milhares ou milhões de páginas. Em sites menores, há formas mais simples de identificar as oportunidades de linkagem.
Mapear redirecionamentos
Depois de descobrir páginas similares, você pode planejar redirecionamentos. Quando descobrir páginas com alta similaridade, basta identificar se existe razão para ter duas URL separadas. Caso não haja, elas podem ser condensadas ou redirecionadas.
Você pode usar o recurso para fazer redirecionamentos em massa ou em projetos de migração de site.
Apoio em projetos de assessoria de imprensa
Quando o seu site é mencionado em outro portal, é interessante que seja em páginas que falem sobre o mesmo assunto.
Se você gerar um link para uma página completamente sem relação, o Google pode considerar como tentativa de spam, ainda mais se for em alto volume.
Uma alternativa é analisar a similaridade de vetores entre a URL que você quer linkar e a URL de destino. Assim, você pode direcionar a assessoria de imprensa a alcançar os links e menções de marca mais relevantes para aquele conteúdo.
Criar topic clusters
Topic clusters são grupos de páginas de um site que cobrem temas muito próximos. A proposta é cobrir o máximo de subtemas e conectá-los a uma página pilar, central sobre o assunto. Todas as URLs são conectadas, para facilitar que o Google identifique este grupo de conteúdo.
Quando os sites crescem, fica mais difícil montar, controlar e alimentar os clusters. Mas, por meio da análise de embeddings, é possível obter uma representação visual dos tópicos que o seu site cobre.
Aí, basta exportar os dados, estabelecer os links, criar as páginas pilares e otimizar o que for necessário.
Quando aplicar essas técnicas no seu site
Aprender como os embeddings funcionam é sempre importante. No entanto, nem sempre isso deve se traduzir em ações práticas para o seu site.
Há várias razões para isso:
Conduzir as análises requer um conhecimento técnico avançado;
Interpretar os dados e transformá-los em ações para a equipe também é um processo complexo;
Geralmente as ferramentas para fazer as análises custam caro (embora haja algumas soluções open-source);
Muitas vantagens são mais visíveis apenas em sites maiores, com alto volume de páginas.
Ou seja, você precisa entender o que é possível fazer para só então decidir se e quando vale a pena aplicar no seu site.
Depois disso, aí sim as técnicas de análise de embedding podem ser o próximo passo que seu site precisa.
No mais, você pode aplicar alguns conceitos mesmo sem realizar análises técnicas sobre os embeddings. Por exemplo, cobrir temas de forma complexa ou planejar topic clusters dentro da sua estratégia de conteúdo.
Fazendo isso, você naturalmente se alinha ao futuro do Google e do SEO, com buscas cada vez mais baseadas em semântica.
__
Entre em contato com a SEO Happy Hour para obter o apoio de especialistas na aplicação das estratégias mais complexas. Você terá à sua disposição um time de especialistas na otimização de sites de todos os tamanhos.
Elyson Gums é redator na SEO Happy Hour. Trabalha com redação e produção de conteúdo para projetos de SEO e inbound marketing desde 2014, em segmentos B2C e B2B. É bacharel em Jornalismo (Univali/SC) e mestre em Comunicação Social (UFPR).
Comentários