Robots.txt: o que é, para que serve, como criar e acessar?

Para indexar corretamente nos mecanismos de busca e evitar problemas de crawl budget, devemos sempre fornecer o máximo de informações para os rastreadores. O uso do arquivo robots.txt é muito importante para que o Google e outros mecanismos consigam ler o seu site e assim, tudo que é prioridade seja indexado rapidamente.

Vamos compreender um pouco mais sobre a utilidade do arquivo robots.txt e como usá-lo no seu site?

O que é o arquivo robots.txt?

O “robots.txt” é um arquivo de texto utilizado pelos sites para instruir os robôs de busca, também conhecidos como spiders, sobre quais partes do site devem ser rastreadas e indexadas.

Ao acessar um site, os robôs de busca procuram pelo arquivo robots.txt na raiz do domínio (por exemplo, www.example.com/robots.txt). Esse arquivo contém diretrizes específicas para, indicando quais URLs ou diretórios eles têm permissão para rastrear e indexar e quais devem ser ignorados.

Para que serve o robots.txt?

O objetivo principal do arquivo robots.txt é permitir que os proprietários do site tenham controle sobre quais páginas devem ser acessadas pelos mecanismos de busca e quais devem ser evitadas. Veja mais detalhadamente como ele realiza esse controle a seguir:

Controla o acesso às páginas da web: com o robots.txt, você pode especificar diretórios ou URLs específicos que devem ser bloqueados para os robôs de busca. Por exemplo, você pode impedir que os robôs acessem uma determinada seção do seu site que contenha informações sensíveis ou privadas;
Controla o acesso a arquivos de imagem: por exemplo, se você deseja bloquear o acesso dos robôs de busca às imagens do seu site, você pode adicionar uma regra no arquivo robots.txt para impedir que os robôs rastreiem o diretório onde as imagens estão armazenadas;
Bloquear acessos a arquivos de recursos: além de controlar o acesso a páginas da web, o robots.txt também pode ser utilizado para bloquear o acesso a arquivos de recursos, como arquivos CSS, JavaScript, PDFs, etc. Isso é útil quando você deseja impedir que os robôs de busca acessem esses arquivos ou evita que eles sejam indexados nos resultados de pesquisa;
Indica o seu sitemap: um sitemap é um arquivo XML que lista todas as páginas do seu site, fornecendo informações sobre a estrutura e a organização do conteúdo. O arquivo robots.txt permite indicar aos robôs de busca onde encontrar o sitemap do site. Isso é feito adicionando uma diretiva “Sitemap” seguida do URL do sitemap no arquivo robots.txt. Essa indicação ajuda os robôs de busca a encontrar e indexar todas as páginas do seu site de forma mais eficiente.

Como criar regras do robots.txt?

As regras no arquivo robots.txt são instruções específicas que indicam aos robôs de busca quais partes do site devem ser rastreadas (ou não) e indexadas por eles. Essas regras são definidas usando as diretivas (como “User-agent” e “Disallow”, por exemplo) e são usadas para controlar o acesso dos robôs de busca ao conteúdo do site. Veja um exemplo:

Nesse exemplo:

A diretiva “User-agent: *” indica que as regras subsequentes se aplicam a todos os robôs de busca;
A diretiva “Disallow: /private/” bloqueia o acesso a todos os diretórios e URLs dentro do diretório “/private/”;
A diretiva “Allow: /public/” permite o acesso ao diretório “/public/”;
Em seguida, a diretiva “User-agent: Googlebot” especifica as regras apenas para o robô de busca principal do Google;
A regra “Disallow: /admin/” bloqueia o acesso ao diretório “/admin/” para o Googlebot;
Por fim, a diretiva “Sitemap: http://www.example.com/sitemap.xml” indica que o sitemap do site está localizado no URL fornecido.

Lembre-se de que as regras do arquivo robots.txt são uma sugestão para os robôs de busca e nem todos os robôs podem segui-las estritamente.

Veja a seguir qual o significado de cada diretiva e como utilizá-las no seu arquivo robots.txt:

User-agent

Essa diretiva especifica o robô de busca ao qual as regras se aplicam. O valor mais comum é o asterisco “*”, que representa todos os robôs de busca. Isso significa que as regras subsequentes serão aplicadas a todos os robôs de busca que visitam o site.

🔹 Por exemplo: “User-agent: *”

Além do asterisco “*”, também é possível especificar diretivas “User-agent” para robôs de busca específicos. Por exemplo, se você deseja fornecer regras diferentes para um robô de busca específico, como o Googlebot, você pode adicionar a seguinte regra:

🔹 User-agent: Googlebot

Lembre-se de que é possível adicionar várias diretivas “User-agent” no arquivo robots.txt para especificar diferentes robôs de busca e suas regras correspondentes.

Disallow

Essa diretiva indica os diretórios ou URLs que devem ser bloqueados para o robô de busca especificado. É usada para proibir o acesso a determinadas áreas do site.

🔸 Por exemplo: “Disallow: /admin/”

É possível usar caracteres curinga para especificar padrões de correspondência mais amplos. O asterisco “*” é usado como curinga e representa qualquer sequência de caracteres. Por exemplo:

🔸 “Disallow: /images/*.jpg” – bloqueia o acesso a todos os arquivos JPEG na pasta “/images/” do site.

Cada robô de busca interpreta as regras “Disallow” de maneira ligeiramente diferente. Alguns robôs de busca respeitam as regras “Disallow” exatamente como são declaradas, enquanto outros podem interpretá-las de maneira mais flexível. É importante testar as regras usando ferramentas de teste de robots.txt fornecidas pelos próprios robôs de busca para garantir que estejam funcionando conforme o esperado.

Allow

Essa diretiva é opcional e serve para permitir o acesso a um diretório ou URL bloqueado anteriormente usando a diretiva “Disallow”. Essa diretiva é opcional e serve para fornecer instruções mais granulares aos robôs de busca sobre quais partes do site são permitidas.

🔹 Por exemplo: “Allow: /public/”

Quando um robô de busca encontra uma regra “Disallow” que bloqueia o acesso a um diretório ou URL, ele normalmente respeita essa restrição e não rastreia nem indexa o conteúdo correspondente. No entanto, a diretiva “Allow” pode ser usada para permitir que o robô de busca acesse uma parte específica do site, mesmo que ela tenha sido bloqueada anteriormente. Veja no exemplo abaixo:

🔹 User-agent: *

Disallow: /private/

Allow: /private/folder1/

Nesse exemplo, a regra “Disallow: /private/” bloqueia o acesso a todos os arquivos e subdiretórios dentro do diretório “/private/”. No entanto, a regra “Allow: /private/folder1/” permite que o robô de busca acesse o diretório “/private/folder1/” específico, mesmo que ele esteja dentro do diretório bloqueado. Isso significa que o robô de busca poderá rastrear e indexar o conteúdo dentro de “/private/folder1/”, enquanto continua bloqueado para outras partes do diretório “/private/”.

É importante notar que nem todos os robôs de busca interpretam a diretiva “Allow”. Alguns robôs de busca mais antigos ou menos comuns podem não reconhecê-la e, nesse caso, o acesso permitido ainda seria bloqueado. Portanto, a diretiva “Allow” deve ser usada com cautela pois seu comportamento pode variar entre diferentes robôs de busca.

Sitemap

Essa diretiva indica a URL do sitemap do site. O sitemap é um arquivo XML que lista todas as principais páginas do site e auxilia os robôs de busca a rastrear e indexar o conteúdo de forma mais eficiente.

🔸 Por exemplo: “Sitemap: http://www.example.com/sitemap.xml”

Quando os robôs de busca encontram a diretiva “Sitemap” no arquivo robots.txt, eles seguem a URL fornecida para acessar o sitemap e obter informações sobre a estrutura e o conteúdo do site. Isso facilita o processo de rastreamento e indexação, permitindo que os robôs de busca descubram rapidamente todas as páginas importantes do site.

O sitemap pode conter informações sobre as URLs do site, a data da última modificação, a frequência de atualização, a prioridade e outras informações relevantes para os robôs de busca.

É possível ter vários sitemaps para um único site. Se você tiver um site grande com muitas páginas, pode ser necessário dividir o sitemap em vários arquivos para facilitar o gerenciamento e a indexação pelos robôs de busca. Nesse caso, você pode listar os URLs de todos os sitemaps relevantes no arquivo robots.txt, usando várias diretivas “Sitemap”.

Como criar um robots TXT?

Para criar um arquivo robots.txt para o seu site, siga o tutorial:

1. Crie um arquivo chamado “robots.txt”

Abra um editor de texto, como o Bloco de Notas (no Windows) ou o TextEdit (no macOS) e crie um novo documento em branco. Salve o arquivo com o nome “robots.txt”. Certifique-se de que a extensão do arquivo seja .txt e não .txt.txt.

2. Adicione regras ao arquivo robots.txt

As regras são escritas em uma sintaxe simples. Você pode usar diretivas como “User-agent” e “Disallow”.

3. Faça upload do arquivo robots.txt para a raiz do seu site

Acesse o servidor onde seu site está hospedado; navegue até a pasta raiz do seu site. Faça o upload do arquivo robots.txt que você criou para essa pasta e verifique se o arquivo está em um local acessível através do URL do seu site (por exemplo, www.example.com/robots.txt).

4. Teste o arquivo robots.txt

Após fazer o upload, você pode testar o arquivo robots.txt para verificar se está funcionando corretamente. Use ferramentas disponíveis online, como o “Teste de robots.txt” do Google Search Console ou o “Robots.txt Tester” do Bing Webmaster Tools. Essas ferramentas permitem que você teste o arquivo robots.txt em relação a diferentes robôs de busca e veja como eles interpretam suas regras.

5. Exemplo de um arquivo robots.txt

Aqui está um exemplo básico de um arquivo robots.txt que bloqueia o acesso a todos os robôs de busca para um diretório chamado “/admin/” e indica um sitemap:

No exemplo emimagem, o arquivo robots.txt bloqueia o acesso dos robôs de busca para um diretório chamado "/admin/" e indica um sitemap.

Nesse exemplo, qualquer robô de busca que acesse o site não poderá rastrear o diretório “/admin/”. Além disso, o sitemap está especificado usando a diretiva “Sitemap”, indicando o local do arquivo sitemap.xml.

Regras úteis do arquivo robots.txt

Agora que você já sabe quais são as regras do arquivo robots.txt e como criar um para seu site, chegou a hora de colocar o aprendizado em prática! Veja a seguir algumas formas úteis de utilizar as diretivas do arquivo robots.txt:

Usar os caracteres “*” e “$” para corresponder a URLs que terminam com uma string específica

No arquivo robots.txt, é possível utilizar os caracteres curinga “*” e “$” para corresponder a URLs que terminam com uma string específica.

O asterisco “*” corresponde a qualquer sequência de caracteres. Quando usado no final de uma regra, ele indica que a parte inicial da URL deve ser correspondida, mas qualquer sequência de caracteres pode seguir a parte correspondida. Por exemplo:

User-agent: *

Disallow: /*.pdf

Nesse caso, o asterisco “*” corresponde a qualquer sequência de caracteres que precede “.pdf”. Isso significa que qualquer URL que termine com “.pdf” será bloqueada para rastreamento pelos mecanismos de busca.

Já o caractere “$” é colocado no final da string para indicar o final da URL. Ele é usado para garantir que a correspondência ocorra apenas nas URLs que terminam com a string especificada. Por exemplo:

User-agent: *

Disallow: /*/secreto$

Nesse caso, o “$” indica que a URL deve terminar exatamente com “/secreto” para corresponder à regra. URLs como “/conteudo/secreto” e “/pasta/subpasta/secreto” seriam bloqueadas, mas URLs como “/conteudo/secreto-extra” não seriam afetadas.

Bloquear o rastreamento de um diretório e o conteúdo dele

Para não permitir o rastreamento de um diretório e todo o seu conteúdo, você pode usar a diretiva “Disallow” seguida do caminho do diretório:

User-agent: *

Disallow: /diretorio/

Permitir acesso a um único rastreador

Para isso, você deve usar a diretiva “User-agent” e colocar o nome do rastreador que você deseja permitir que leia seu arquivo robots.txt. No exemplo abaixo usamos o Googlebot como o rastreador permitido:

User-agent: Googlebot

Permitir acesso a todos os rastreadores, exceto um deles

Para permitir todos rastreadores, exceto um deles, você usará as seguintes diretivas:

User-agent: *

Disallow: /diretorio-restrito/

User-agent: Nome-do-Rastreador-Excluido

Disallow: /

Não permitir o rastreamento de uma página da Web

Caso você não queira que uma página específica do seu site seja rastreada, utilize as diretivas da seguinte forma:

User-agent: *

Disallow: /pagina-restrita.html

No lugar de “/pagina-restrita.html” coloque a URL da página que você deseja que não seja rastreada.

Impedir o rastreamento do site inteiro, exceto um subdiretório

Para impedir o rastreamento de um site inteiro, exceto um subdiretório, utilize as diretivas abaixo, colocando em “Allow” a URL do subdiretório que deve ser rastreado:

User-agent: *

Disallow: /

Allow: /subdiretorio/

Bloquear uma imagem específica das Imagens do Google

O Googlebot-Image é o rastreador específico do Google responsável por indexar e rastrear imagens em páginas da web. Portanto, se você deseja bloquear o rastreamento de uma imagem, impedindo-a de aparecer no Google, pode usar as seguintes regras no seu arquivo robots.txt:

User-agent: Googlebot-Image

Disallow: /caminho/imagem.jpg

Em “/caminho/imagem.jpg” substitua pela URL da imagem que deseja bloquear.

Bloquear todas as imagens do seu site das Imagens do Google

Para bloquear todas as imagens do seu site de aparecer nas Imagens do Google, utilize as diretivas:

User-agent: Googlebot-Image

Disallow: /

Não permitir o rastreamento de arquivos de um tipo específico

Vamos supor que você não quer que arquivos PDF do seu site sejam rastreados. Para isso, use as regras a seguir:

User-agent: *

Disallow: /*.pdf$

Você pode usar essas regras para qualquer tipo de arquivo, basta trocar o tipo de arquivo na regra “/*.pdf$”.

Não permitir o rastreamento de um site inteiro, mas permitir o Mediapartners-Google

Mediapartners-Google é usado especificamente para identificar o seu rastreador de mídia e exibição de anúncios. O Google utiliza esse rastreador para coletar informações sobre o conteúdo das páginas da web e exibir anúncios relevantes com base nesses dados.

Quando você permite o acesso ao Mediapartners-Google no arquivo robots.txt, está indicando ao Google que o rastreador de anúncios pode acessar e analisar o conteúdo do seu site para exibir anúncios relevantes aos usuários.

Caso você queira que seu site não seja rastreado por outros robôs, mas seja pelo Mediapartners-Google, utilize as regras a seguir:

User-agent: *

Disallow: /

User-agent: Mediapartners-Google

Allow: /

Lembrando que o caractere “/” no arquivo robots.txt é usado para definir o escopo das regras aplicadas, especificando diretórios, URLs ou arquivos específicos dentro do site que devem ser afetados pelas diretrizes definidas.

Quais as boas práticas de SEO para robots.txt?

Seguir essas boas práticas ao criar e gerenciar o arquivo robots.txt pode ajudar a garantir que seu site seja rastreado adequadamente pelos mecanismos de busca e que o acesso a conteúdos relevantes não seja bloqueado acidentalmente:

Verifique se você não está bloqueando nenhum conteúdo ou seções do seu site que deseja rastrear

Ao criar regras no arquivo robots.txt, é importante garantir que você não esteja bloqueando acidentalmente partes do seu site que deseja que sejam rastreadas pelos mecanismos de busca. Verifique cuidadosamente as regras definidas para evitar bloqueios indesejados.

Links em páginas bloqueadas por robots.txt não serão seguidos

É importante lembrar que, se você bloquear uma página ou diretório no robots.txt, os mecanismos de busca não seguirão os links presentes nessas páginas. Portanto, se você deseja que os mecanismos de busca descubram e indexem todo o seu site, certifique-se de que as páginas relevantes estejam acessíveis aos rastreadores.

Não use robots.txt para impedir que dados confidenciais (como informações privadas do usuário) apareçam nos resultados da SERP

O arquivo robots.txt não é uma forma eficaz de ocultar informações confidenciais ou privadas dos usuários. Os mecanismos de busca podem exibir informações de páginas bloqueadas pelo robots.txt nos resultados da SERP (página de resultados de pesquisa). Portanto, para proteger dados sensíveis, é recomendável usar outras técnicas, como autenticação ou bloqueio por senha.

Alguns mecanismos de pesquisa têm vários agentes de usuário

Além do rastreador padrão do Google, o Googlebot, existem outros rastreadores específicos do Google, como o Googlebot-Image ou o Googlebot-News. Certifique-se de considerar esses diferentes agentes de usuário ao definir regras no robots.txt, para garantir que as configurações sejam adequadas para cada rastreador específico.

Um mecanismo de pesquisa armazenará em cache os robots.txt, mas geralmente atualiza o conteúdo em cache pelo menos uma vez por dia

É importante saber que os mecanismos de busca geralmente armazenam em cache o arquivo robots.txt para melhorar a eficiência do rastreamento. No entanto, eles geralmente atualizam o conteúdo em cache pelo menos uma vez por dia. Portanto, se você fizer alterações no arquivo robots.txt, pode levar algum tempo para que as atualizações sejam reconhecidas pelos mecanismos de busca.

Quando não usar o arquivo robots.txt?

Embora o arquivo robots.txt seja uma ferramenta útil para controlar o acesso dos mecanismos de busca ao seu site, há uma situação em que pode ser melhor não usar o arquivo ou não usá-lo de forma restritiva.

Quando você tem conteúdo confidencial ou privado, que requer autenticação, como informações privadas do usuário ou áreas restritas, o arquivo robots.txt não é uma forma adequada de ocultar esse conteúdo. Em vez disso, você deve usar métodos de autenticação para proteger essas áreas do site.

Quais são as limitações do robots.txt?

Embora o arquivo robots.txt seja uma ferramenta útil para controlar o acesso dos mecanismos de busca ao seu site, é importante entender suas limitações. As instruções são apenas diretivas e a interpretação da sintaxe pode variar entre os mecanismos de busca. Vamos saber mais sobre essas limitações a seguir:

As instruções do arquivo robots.txt são apenas diretivas

O arquivo robots.txt fornece instruções aos mecanismos de busca sobre como eles deveriam rastrear e indexar o seu site. No entanto, essas instruções são apenas sugestões e dependem da conformidade e implementação correta dos mecanismos de busca. Alguns rastreadores podem optar por ignorar essas diretivas se considerarem necessário.

Cada robô de busca pode interpretar a sintaxe de maneiras diferentes

Embora exista uma sintaxe padrão para o arquivo robots.txt, cada robô de busca pode interpretá-la de maneiras ligeiramente diferentes. Alguns podem ser mais rigorosos na interpretação das regras, enquanto outros podem ser mais flexíveis. Isso pode levar a diferenças no comportamento dos mecanismos de busca em relação às regras definidas no arquivo robots.txt.

Os direcionamentos do robots.txt não impedem que outros sites façam referências a suas URLs

O arquivo robots.txt é específico para o seu próprio site e tem como objetivo controlar o acesso dos mecanismos de busca. No entanto, ele não impede que outros sites façam referência às URLs do seu site ou criem links para elas. Portanto, é possível que as URLs bloqueadas pelo arquivo robots.txt ainda sejam descobertas e acessadas por meio de outros meios, como referências externas.

Pode ser necessário dar ordens específicas para cada robô de busca

Se você deseja definir regras diferentes para diferentes mecanismos de busca, pode ser necessário especificar ordens específicas para cada robô de busca no arquivo robots.txt. Isso ocorre porque diferentes mecanismos de busca podem ter agentes de usuário (user-agents) específicos e comportamentos de rastreamento diferentes. Portanto, é importante considerar as peculiaridades de cada mecanismo de busca ao definir regras no arquivo robots.txt.

Como acessar o robots TXT de um site?

Para acessar o arquivo robots.txt de um site, você pode seguir estas etapas:

Abra um navegador da web;
Digite a URL do site desejado na barra de endereços;
Após a URL do site, adicione “/robots.txt”. Por exemplo: “www.exemplo.com/robots.txt”;
Pressione Enter para acessar o arquivo robots.txt.

Isso abrirá o arquivo robots.txt do site no navegador da web. Você poderá ver as regras e diretivas definidas no arquivo.

Como testar o robot TXT?

Para testar o arquivo robots.txt, você pode usar as ferramentas de teste e validação fornecidas pelos mecanismos de busca, como o Google Search Console ou o Bing Webmaster Tools. Essas ferramentas permitem que você teste o arquivo robots.txt para verificar se as regras estão sendo interpretadas corretamente pelos mecanismos de busca.

Essas ferramentas ajudam a identificar erros de sintaxe, problemas de bloqueio ou permissões incorretas que podem estar presentes no arquivo robots.txt. Elas fornecem informações valiosas sobre como os mecanismos de busca estão interpretando as regras do arquivo e permitem que você faça ajustes necessários para otimizar o rastreamento e indexação do seu site.

Conclusão

Agora você já sabe como usar o arquivo robots.txt corretamente e extrair ao máximo os benefícios desta funcionalidade. Porém, se precisar de ajuda, já sabe: conte com a SEO Happy Hour! Nossa equipe de especialistas está sempre pronta para auxiliar sua equipe de desenvolvimento a implementar corretamente o arquivo robots no seu site.

Entre em contato conosco e faça um orçamento sem compromisso!

Robots.txt: o que é, para que serve, como criar e acessar?

Conteúdo do Post

Newsletter

O que é o arquivo robots.txt?

Para que serve o robots.txt?

Como criar regras do robots.txt?

User-agent

Disallow

Allow

Sitemap

Como criar um robots TXT?

1. Crie um arquivo chamado “robots.txt”

2. Adicione regras ao arquivo robots.txt

3. Faça upload do arquivo robots.txt para a raiz do seu site

4. Teste o arquivo robots.txt

5. Exemplo de um arquivo robots.txt

Regras úteis do arquivo robots.txt

Usar os caracteres “*” e “$” para corresponder a URLs que terminam com uma string específica

Bloquear o rastreamento de um diretório e o conteúdo dele

Permitir acesso a um único rastreador

Permitir acesso a todos os rastreadores, exceto um deles

Não permitir o rastreamento de uma página da Web

Impedir o rastreamento do site inteiro, exceto um subdiretório

Bloquear uma imagem específica das Imagens do Google

Bloquear todas as imagens do seu site das Imagens do Google

Não permitir o rastreamento de arquivos de um tipo específico

Não permitir o rastreamento de um site inteiro, mas permitir o Mediapartners-Google

Quais as boas práticas de SEO para robots.txt?

Verifique se você não está bloqueando nenhum conteúdo ou seções do seu site que deseja rastrear

Links em páginas bloqueadas por robots.txt não serão seguidos

Não use robots.txt para impedir que dados confidenciais (como informações privadas do usuário) apareçam nos resultados da SERP

Alguns mecanismos de pesquisa têm vários agentes de usuário

Um mecanismo de pesquisa armazenará em cache os robots.txt, mas geralmente atualiza o conteúdo em cache pelo menos uma vez por dia

Quando não usar o arquivo robots.txt?

Quais são as limitações do robots.txt?

As instruções do arquivo robots.txt são apenas diretivas

Cada robô de busca pode interpretar a sintaxe de maneiras diferentes

Os direcionamentos do robots.txt não impedem que outros sites façam referências a suas URLs

Pode ser necessário dar ordens específicas para cada robô de busca

Como acessar o robots TXT de um site?

Como testar o robot TXT?

Conclusão

Rafael Simões

Comentários

Deixe um comentário Cancelar resposta

Postagens relacionadas

Como funcionam os crawlers de IA? Entenda como dados da web alimentam modelos como o ChatGPT

Redirects em SEO: o que são, como funcionam e como implementar

SEO técnico: conceito, principais elementos e como aplicar no seu site