Como o ChatGPT decide quais páginas citar (e porque cita apenas metade do que acessa)

O ChatGPT cita apenas metade das páginas que acessa ao pesquisar na web. A Ahrefs estudou 1.4 milhões de prompts para tentar entender o que influencia na decisão de incluir ou não um link na resposta. 

Anteriormente, o especialista em IA Dan Petrovic descobriu que o ChatGPT lê título, URL e um resumo do conteúdo para decidir se vale a pena ou não acessar uma página. 

Partindo daí, o estudo da Ahrefs tentou entender quais outras variáveis são levadas em consideração. Entre as principais descobertas do estudo, estão as seguintes:

  • Apenas metade das páginas lidas é citada;
  • O ChatGPT tem diferentes categorias de pesquisa (geral, notícias, Reddit, etc.);
  • A taxa de citações varia para cada categoria; 
  • As páginas mais citadas têm títulos similares às pesquisas feitas na query fan-out;
  • URLs escritas em linguagem natural são mais citadas;
  • Conteúdos atualizados são mais citados (o que não é exatamente uma novidade).

Como o ChatGPT classifica as pesquisas

O ChatGPT usa um classificador interno, o ref_type, dependendo de onde ele busca informações. É como se fossem diferentes categorias, consultadas de acordo com o que é necessário para responder ao prompt.

A equipe da Ahrefs descobriu as seguintes classificações: 

ref_typeTaxa de citação %Quantidade
search88.46%25,563,589
news12.01%3,940,537
reddit1.93%16,182,976
youtube0.51%953,693
academia0.40%185,337

Posts informativos gerais, como os do seu blog, entram no primeiro grupo, o “search”.

Para ser citado, a primeira barreira a superar é o ranqueamento. Do contrário, o post dificilmente aparecerá no índice que o ChatGPT usa para descobrir as páginas. Depois, relevância e atualização entram na conta, como veremos adiante.

E, a julgar pela porcentagem de citações, um comportamento diferente: o ChatGPT usa as informações, mas não cita os sites diretamente.  

A maioria das URLs não citadas é do Reddit

O Reddit é um dos casos mais interessantes. O site é um dos mais citados e, ainda assim, cerca de 67.8% das URLs não citadas vêm de lá.

De acordo com a pesquisa da Ahrefs, o que ocorre é que:

O ChatGPT está usando o Reddit de forma ampla para entender tópicos, averiguar o consenso sobre uma informação, e construir contexto. Mas, quase nunca dá o crédito ao Reddit. Ele aprende a partir da multidão, e então cita outras instituições.”

Em menor escala (cerca de 12%), também pode ocorrer com o seu site. É bastante comum páginas ranqueadas serem lidas, mas não serem citadas, geralmente pela dificuldade de extrair informações deles. 

Títulos similares às queries fan-out são mais citados

O principal critério para citações é a relevância da página em relação ao prompt. 

É impossível saber todos os detalhes do processo. Mas, ao que tudo indica, o ChatGPT compara os títulos das páginas com as queries fan-out, que são as subpesquisas executadas em paralelo para responder cada prompt.

Os gráficos abaixo demonstram a correlação entre a similaridade de títulos e prompts, e de títulos e subpesquisas da query fan-out.

Ao isolar o classificador search, para pesquisas gerais, a correlação fica ainda mais evidente. 

Uma pesquisa feita pela AirOps, divulgada em abril de 2026, chegou a conclusões semelhantes.  

URLs com linguagem natural são ligeiramente mais citadas

De acordo com a Ahrefs, URLs escritas em linguagem natural são mais citadas (89.78%) em comparação a slugs genéricas (81.11%). 

Possivelmente, as palavras que compõem o link da página são interpretadas pela IA e oferecem mais contexto, o que ajuda a tomar a decisão de citar ou não citar.

As páginas mais citadas têm em média 500 dias

O ChatGPT prefere citar conteúdos atualizados. Isso não é novidade, mas o estudo da Ahrefs apresenta algumas nuances interessantes:

  • A “idade média” das páginas é de cerca de 500 dias (por volta de 1.3 anos);
  • Algumas páginas são muito mais antigas, por volta de 2700 dias (cerca de 7.4 anos);
  • A maioria das páginas que não recebem citações são muito mais recentes (menos de 500 dias);
  • No classificador de notícias, o “frescor” das informações têm mais valor, o que não é surpresa. 

Ou seja, atualizar as páginas não é tudo. Em muitos casos, são as URLs já estabelecidas que recebem as citações. Possivelmente, porque é mais fácil atestar a relevância quando já existe algum histórico.

É assim nos buscadores tradicionais também. Para muitas palavras-chave, conteúdos recentes não conseguem competir com páginas já estabelecidas, pois falta autoridade. Isso pode se refletir também nas IAs, já que elas usam índices dos buscadores quando pesquisam na web

Como tornar seu site mais “citável”?

Atualize o conteúdo das suas páginas, revise os seus títulos e subtítulos, e atente-se para as queries fan-out. Estas são as principais dicas acionáveis que o estudo da Ahrefs traz, e que são confirmadas por estudos independentes. 

Falando de forma mais prática, procure fazer o seguinte:

  • Selecione alguns prompts para os quais você quer aparecer;
  • Investigue quais subpesquisas são acionadas pela query fan-out;
  • Edite os títulos das páginas para corresponder ao prompt e a essas subpesquisas;
  • Atualize o conteúdo com frequência, sempre que houver informações novas e relevantes.

O vídeo abaixo mostra como descobrir as subpesquisas da query fan-out para um prompt:

Além disso, siga o básico para ser bem ranqueado: SEO bem feito, páginas estruturadas, redação clara e informações concisas.

E, caso precise apoio com a sua estratégia, entre em contato com a SEO Happy Hour! Somos especialistas em SEO e podemos te ajudar a melhorar a visibilidade da sua marca nas IAs e nos buscadores tradicionais.

  • Elyson Gums

    Elyson Gums

    Elyson Gums é redator na SEO Happy Hour. Trabalha com redação e produção de conteúdo para projetos de SEO e inbound marketing desde 2014, em segmentos B2C e B2B. É bacharel em Jornalismo (Univali/SC) e mestre em Comunicação Social (UFPR).

Comentários

0 Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *