ChatGPT pode citar URLs que não existem (e até inventar links)

Ao responder um prompt, o ChatGPT pode gerar citações para páginas que não existem. São páginas que nunca existiram no site. Aparentemente, as alucinações, que são comuns nas LLMs, também podem afetar os recursos de pesquisa na web.

Quem relatou o caso foi Anastasia Kotsiubynska, head de SEO da plataforma SE Ranking. Ela analisou as páginas que recebiam tráfego vindo do ChatGPT e reparou que muitas URLs sequer existiam.

Para descobrir se está acontecendo no seu site, acesse o Google Analytics e verifique se as URLs que estão recebendo tráfego existem de verdade. Caso não existam, você pode fazer redirecionamentos ou aproveitá-las na sua estratégia de conteúdo. 

Entenda abaixo por que acontece e como lidar com a situação.

O que são as alucinações das Inteligências Artificiais?

Uma alucinação é quando uma IA inventa uma informação que parece verdadeira. Ela fala com confiança, mas a resposta não corresponde aos dados de treinamento.

Provavelmente até já aconteceu com você. No início do ChatGPT, não havia dados de treinamento sobre eventos recentes. Por isso, se você perguntasse sobre temas mais atuais, as respostas pareciam fazer sentido, mas não tinham base na realidade.

As alucinações podem acontecer por várias razões:

  • Dados de treinamento insuficientes;
  • Suposições feitas com base nos dados disponíveis;
  • Vieses na geração de dados para treinar o modelo de linguagem.

O problema ocorre de forma geral nos Modelos de Linguagem de Larga Escala (LLMs). No ChatGPT, era mais comum encontrá-lo em textos, especialmente entre 2022 e 2023. 

Agora, ocorreu também em links. Provavelmente a razão foi a mesma: havia uma “lacuna” na hora de pesquisar na internet, que o ChatGPT tentou cobrir fazendo suposições. 

O ChatGPT estava indicando páginas que não existem como fontes nas respostas de IA. Eram URLs que simplesmente não existiam, ou que eram parecidas com conteúdo que de fato estava no site.

Quando o visitante acessa essas páginas, recebe um status 404 (não encontrado).

No total, foram 70 URLs “inventadas”. A maioria tinha duas ou três acessos, mas algumas chegaram a mais de 20 sessões.

tabela com URLs do site do SE Ranking inventados pelo ChatGPT

Nos comentários do post original do LinkedIn, outras pessoas relataram ter visto as alucinações ao gerar links. Por enquanto, não há estudos que indiquem algum padrão de comportamento que as desencadeie.

Como lidar com as alucinações de URL?

Anastasia seguiu este plano de ação para lidar com as URLs inventadas:

  1. Redirecionou as URLs que recebem pouco tráfego;
  2. Criou novas páginas com base no relatório. Algumas páginas que não existem poderiam ser criadas e, se estavam sendo citadas pela LLM, talvez tenham potencial de agradar os visitantes;
  3. Não fez nada nas URLs que têm apenas 1 acesso.

Essas ações servem especialmente para “corrigir” a jornada de quem acessa o site vindo do ChatGPT. 

Nos comentários do post original, o CMO Mo Rassam deu uma sugestão de mensagem para a página 404. O texto diz: Algum assistente de IA te mandou pra cá? ChatGPT, Perplexity e outros assistentes de IA às vezes sugerem URLs que não existem. Não se preocupe – acontece com todo mundo! Vamos te mandar para o lugar certo.

Um arquivo llm.txt resolveria o problema?

O llm.txt é um arquivo que explica às LLMs quais partes de um site devem ser acessadas, rastreadas e indexadas. Seria igual ao robots.txt, usado para instruir os rastreadores dos mecanismos de busca tradicionais.

Em teoria, se você listar todas as URLs e sessões que a LLM pode acessar, não teria por que inventar nada. Mas, na prática, não há indícios de que esse arquivo seja lido ou respeitado.

Alguns especialistas sugerem a implementação do llm.txt, mas não existem testes ou diretrizes que comprovem a sua eficácia. O Google já informou que ela não é necessária.

Isso tem muito a ver com a “estrutura” usada pelas LLMs. Elas navegam pela internet da mesma forma que os mecanismos de busca tradicionais, usando crawlers. São robôs que acessam as páginas para que elas possam ser indexadas. 

Os crawlers de IA rastreiam muito conteúdo 404

Além de “inventar” links, o ChatGPT gasta recursos com páginas indisponíveis. São aquelas URLs que já existiram no site, mas saíram do ar, ou tiveram conteúdo movido para outro lugar.

Essa ineficiência dos crawlers de IA foi documentada pela Vercel com base em uma pesquisa de bilhões de rastreios. A OpenAI está entre as piores: 34% das requisições são para páginas 404, outras 14,36% seguem cadeias de redirecionamento.

A maioria das plataformas de LLM do mercado segue esse padrão. Uma das exceções é o Google, que gasta poucos recursos com URLs inválidas.

Não fica claro se essa característica do robô influencia na alucinação de links, mas é uma informação interessante para entender que as LLMs não são “otimizadas” para entender o conceito de URL válida (que retorna status 200).

  • Elyson Gums

    Elyson Gums

    Elyson Gums é redator na SEO Happy Hour. Trabalha com redação e produção de conteúdo para projetos de SEO e inbound marketing desde 2014, em segmentos B2C e B2B. É bacharel em Jornalismo (Univali/SC) e mestre em Comunicação Social (UFPR).

Comentários

0 Comentários

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *