Rafael Simões
CEO da SEO Happy Hour e especialista com mais de 13 anos de experiência em SEO. Ajudo empresas a aumentarem seu tráfego, vendas e leads com estratégias de SEO e CRO.
Rafael Simões
Atualizado em 27/09/2023
19 min de leitura
Para indexar corretamente nos mecanismos de busca e evitar problemas de crawl budget, devemos sempre fornecer o máximo de informações para os rastreadores. O uso do arquivo robots.txt é muito importante para que o Google e outros mecanismos consigam ler o seu site e assim, tudo que é prioridade seja indexado rapidamente.
Vamos compreender um pouco mais sobre a utilidade do arquivo robots.txt e como usá-lo no seu site?
O “robots.txt” é um arquivo de texto utilizado pelos sites para instruir os robôs de busca, também conhecidos como spiders, sobre quais partes do site devem ser rastreadas e indexadas.
Ao acessar um site, os robôs de busca procuram pelo arquivo robots.txt na raiz do domínio (por exemplo, www.example.com/robots.txt). Esse arquivo contém diretrizes específicas para, indicando quais URLs ou diretórios eles têm permissão para rastrear e indexar e quais devem ser ignorados.
O objetivo principal do arquivo robots.txt é permitir que os proprietários do site tenham controle sobre quais páginas devem ser acessadas pelos mecanismos de busca e quais devem ser evitadas. Veja mais detalhadamente como ele realiza esse controle a seguir:
As regras no arquivo robots.txt são instruções específicas que indicam aos robôs de busca quais partes do site devem ser rastreadas (ou não) e indexadas por eles. Essas regras são definidas usando as diretivas (como “User-agent” e “Disallow”, por exemplo) e são usadas para controlar o acesso dos robôs de busca ao conteúdo do site. Veja um exemplo:
Nesse exemplo:
Lembre-se de que as regras do arquivo robots.txt são uma sugestão para os robôs de busca e nem todos os robôs podem segui-las estritamente.
Veja a seguir qual o significado de cada diretiva e como utilizá-las no seu arquivo robots.txt:
Essa diretiva especifica o robô de busca ao qual as regras se aplicam. O valor mais comum é o asterisco “*”, que representa todos os robôs de busca. Isso significa que as regras subsequentes serão aplicadas a todos os robôs de busca que visitam o site.
🔹 Por exemplo: “User-agent: *”
Além do asterisco “*”, também é possível especificar diretivas “User-agent” para robôs de busca específicos. Por exemplo, se você deseja fornecer regras diferentes para um robô de busca específico, como o Googlebot, você pode adicionar a seguinte regra:
🔹 User-agent: Googlebot
Lembre-se de que é possível adicionar várias diretivas “User-agent” no arquivo robots.txt para especificar diferentes robôs de busca e suas regras correspondentes.
Essa diretiva indica os diretórios ou URLs que devem ser bloqueados para o robô de busca especificado. É usada para proibir o acesso a determinadas áreas do site.
🔸 Por exemplo: “Disallow: /admin/”
É possível usar caracteres curinga para especificar padrões de correspondência mais amplos. O asterisco “*” é usado como curinga e representa qualquer sequência de caracteres. Por exemplo:
🔸 “Disallow: /images/*.jpg” – bloqueia o acesso a todos os arquivos JPEG na pasta “/images/” do site.
Cada robô de busca interpreta as regras “Disallow” de maneira ligeiramente diferente. Alguns robôs de busca respeitam as regras “Disallow” exatamente como são declaradas, enquanto outros podem interpretá-las de maneira mais flexível. É importante testar as regras usando ferramentas de teste de robots.txt fornecidas pelos próprios robôs de busca para garantir que estejam funcionando conforme o esperado.
Essa diretiva é opcional e serve para permitir o acesso a um diretório ou URL bloqueado anteriormente usando a diretiva “Disallow”. Essa diretiva é opcional e serve para fornecer instruções mais granulares aos robôs de busca sobre quais partes do site são permitidas.
🔹 Por exemplo: “Allow: /public/”
Quando um robô de busca encontra uma regra “Disallow” que bloqueia o acesso a um diretório ou URL, ele normalmente respeita essa restrição e não rastreia nem indexa o conteúdo correspondente. No entanto, a diretiva “Allow” pode ser usada para permitir que o robô de busca acesse uma parte específica do site, mesmo que ela tenha sido bloqueada anteriormente. Veja no exemplo abaixo:
🔹 User-agent: *
Disallow: /private/
Allow: /private/folder1/
Nesse exemplo, a regra “Disallow: /private/” bloqueia o acesso a todos os arquivos e subdiretórios dentro do diretório “/private/”. No entanto, a regra “Allow: /private/folder1/” permite que o robô de busca acesse o diretório “/private/folder1/” específico, mesmo que ele esteja dentro do diretório bloqueado. Isso significa que o robô de busca poderá rastrear e indexar o conteúdo dentro de “/private/folder1/”, enquanto continua bloqueado para outras partes do diretório “/private/”.
É importante notar que nem todos os robôs de busca interpretam a diretiva “Allow”. Alguns robôs de busca mais antigos ou menos comuns podem não reconhecê-la e, nesse caso, o acesso permitido ainda seria bloqueado. Portanto, a diretiva “Allow” deve ser usada com cautela pois seu comportamento pode variar entre diferentes robôs de busca.
Essa diretiva indica a URL do sitemap do site. O sitemap é um arquivo XML que lista todas as principais páginas do site e auxilia os robôs de busca a rastrear e indexar o conteúdo de forma mais eficiente.
🔸 Por exemplo: “Sitemap: http://www.example.com/sitemap.xml”
Quando os robôs de busca encontram a diretiva “Sitemap” no arquivo robots.txt, eles seguem a URL fornecida para acessar o sitemap e obter informações sobre a estrutura e o conteúdo do site. Isso facilita o processo de rastreamento e indexação, permitindo que os robôs de busca descubram rapidamente todas as páginas importantes do site.
O sitemap pode conter informações sobre as URLs do site, a data da última modificação, a frequência de atualização, a prioridade e outras informações relevantes para os robôs de busca.
É possível ter vários sitemaps para um único site. Se você tiver um site grande com muitas páginas, pode ser necessário dividir o sitemap em vários arquivos para facilitar o gerenciamento e a indexação pelos robôs de busca. Nesse caso, você pode listar os URLs de todos os sitemaps relevantes no arquivo robots.txt, usando várias diretivas “Sitemap”.
Para criar um arquivo robots.txt para o seu site, siga o tutorial:
Abra um editor de texto, como o Bloco de Notas (no Windows) ou o TextEdit (no macOS) e crie um novo documento em branco. Salve o arquivo com o nome “robots.txt”. Certifique-se de que a extensão do arquivo seja .txt e não .txt.txt.
As regras são escritas em uma sintaxe simples. Você pode usar diretivas como “User-agent” e “Disallow”.
Acesse o servidor onde seu site está hospedado; navegue até a pasta raiz do seu site. Faça o upload do arquivo robots.txt que você criou para essa pasta e verifique se o arquivo está em um local acessível através do URL do seu site (por exemplo, www.example.com/robots.txt).
Após fazer o upload, você pode testar o arquivo robots.txt para verificar se está funcionando corretamente. Use ferramentas disponíveis online, como o “Teste de robots.txt” do Google Search Console ou o “Robots.txt Tester” do Bing Webmaster Tools. Essas ferramentas permitem que você teste o arquivo robots.txt em relação a diferentes robôs de busca e veja como eles interpretam suas regras.
Aqui está um exemplo básico de um arquivo robots.txt que bloqueia o acesso a todos os robôs de busca para um diretório chamado “/admin/” e indica um sitemap:
Nesse exemplo, qualquer robô de busca que acesse o site não poderá rastrear o diretório “/admin/”. Além disso, o sitemap está especificado usando a diretiva “Sitemap”, indicando o local do arquivo sitemap.xml.
Agora que você já sabe quais são as regras do arquivo robots.txt e como criar um para seu site, chegou a hora de colocar o aprendizado em prática! Veja a seguir algumas formas úteis de utilizar as diretivas do arquivo robots.txt:
No arquivo robots.txt, é possível utilizar os caracteres curinga “*” e “$” para corresponder a URLs que terminam com uma string específica.
O asterisco “*” corresponde a qualquer sequência de caracteres. Quando usado no final de uma regra, ele indica que a parte inicial da URL deve ser correspondida, mas qualquer sequência de caracteres pode seguir a parte correspondida. Por exemplo:
User-agent: *
Disallow: /*.pdf
Nesse caso, o asterisco “*” corresponde a qualquer sequência de caracteres que precede “.pdf”. Isso significa que qualquer URL que termine com “.pdf” será bloqueada para rastreamento pelos mecanismos de busca.
Já o caractere “$” é colocado no final da string para indicar o final da URL. Ele é usado para garantir que a correspondência ocorra apenas nas URLs que terminam com a string especificada. Por exemplo:
User-agent: *
Disallow: /*/secreto$
Nesse caso, o “$” indica que a URL deve terminar exatamente com “/secreto” para corresponder à regra. URLs como “/conteudo/secreto” e “/pasta/subpasta/secreto” seriam bloqueadas, mas URLs como “/conteudo/secreto-extra” não seriam afetadas.
Para não permitir o rastreamento de um diretório e todo o seu conteúdo, você pode usar a diretiva “Disallow” seguida do caminho do diretório:
User-agent: *
Disallow: /diretorio/
Para isso, você deve usar a diretiva “User-agent” e colocar o nome do rastreador que você deseja permitir que leia seu arquivo robots.txt. No exemplo abaixo usamos o Googlebot como o rastreador permitido:
User-agent: Googlebot
Para permitir todos rastreadores, exceto um deles, você usará as seguintes diretivas:
User-agent: *
Disallow: /diretorio-restrito/
User-agent: Nome-do-Rastreador-Excluido
Disallow: /
Caso você não queira que uma página específica do seu site seja rastreada, utilize as diretivas da seguinte forma:
User-agent: *
Disallow: /pagina-restrita.html
No lugar de “/pagina-restrita.html” coloque a URL da página que você deseja que não seja rastreada.
Para impedir o rastreamento de um site inteiro, exceto um subdiretório, utilize as diretivas abaixo, colocando em “Allow” a URL do subdiretório que deve ser rastreado:
User-agent: *
Disallow: /
Allow: /subdiretorio/
O Googlebot-Image é o rastreador específico do Google responsável por indexar e rastrear imagens em páginas da web. Portanto, se você deseja bloquear o rastreamento de uma imagem, impedindo-a de aparecer no Google, pode usar as seguintes regras no seu arquivo robots.txt:
User-agent: Googlebot-Image
Disallow: /caminho/imagem.jpg
Em “/caminho/imagem.jpg” substitua pela URL da imagem que deseja bloquear.
Para bloquear todas as imagens do seu site de aparecer nas Imagens do Google, utilize as diretivas:
User-agent: Googlebot-Image
Disallow: /
Vamos supor que você não quer que arquivos PDF do seu site sejam rastreados. Para isso, use as regras a seguir:
User-agent: *
Disallow: /*.pdf$
Você pode usar essas regras para qualquer tipo de arquivo, basta trocar o tipo de arquivo na regra “/*.pdf$”.
Mediapartners-Google é usado especificamente para identificar o seu rastreador de mídia e exibição de anúncios. O Google utiliza esse rastreador para coletar informações sobre o conteúdo das páginas da web e exibir anúncios relevantes com base nesses dados.
Quando você permite o acesso ao Mediapartners-Google no arquivo robots.txt, está indicando ao Google que o rastreador de anúncios pode acessar e analisar o conteúdo do seu site para exibir anúncios relevantes aos usuários.
Caso você queira que seu site não seja rastreado por outros robôs, mas seja pelo Mediapartners-Google, utilize as regras a seguir:
User-agent: *
Disallow: /
User-agent: Mediapartners-Google
Allow: /
Lembrando que o caractere “/” no arquivo robots.txt é usado para definir o escopo das regras aplicadas, especificando diretórios, URLs ou arquivos específicos dentro do site que devem ser afetados pelas diretrizes definidas.
Seguir essas boas práticas ao criar e gerenciar o arquivo robots.txt pode ajudar a garantir que seu site seja rastreado adequadamente pelos mecanismos de busca e que o acesso a conteúdos relevantes não seja bloqueado acidentalmente:
Ao criar regras no arquivo robots.txt, é importante garantir que você não esteja bloqueando acidentalmente partes do seu site que deseja que sejam rastreadas pelos mecanismos de busca. Verifique cuidadosamente as regras definidas para evitar bloqueios indesejados.
É importante lembrar que, se você bloquear uma página ou diretório no robots.txt, os mecanismos de busca não seguirão os links presentes nessas páginas. Portanto, se você deseja que os mecanismos de busca descubram e indexem todo o seu site, certifique-se de que as páginas relevantes estejam acessíveis aos rastreadores.
O arquivo robots.txt não é uma forma eficaz de ocultar informações confidenciais ou privadas dos usuários. Os mecanismos de busca podem exibir informações de páginas bloqueadas pelo robots.txt nos resultados da SERP (página de resultados de pesquisa). Portanto, para proteger dados sensíveis, é recomendável usar outras técnicas, como autenticação ou bloqueio por senha.
Além do rastreador padrão do Google, o Googlebot, existem outros rastreadores específicos do Google, como o Googlebot-Image ou o Googlebot-News. Certifique-se de considerar esses diferentes agentes de usuário ao definir regras no robots.txt, para garantir que as configurações sejam adequadas para cada rastreador específico.
É importante saber que os mecanismos de busca geralmente armazenam em cache o arquivo robots.txt para melhorar a eficiência do rastreamento. No entanto, eles geralmente atualizam o conteúdo em cache pelo menos uma vez por dia. Portanto, se você fizer alterações no arquivo robots.txt, pode levar algum tempo para que as atualizações sejam reconhecidas pelos mecanismos de busca.
Embora o arquivo robots.txt seja uma ferramenta útil para controlar o acesso dos mecanismos de busca ao seu site, há uma situação em que pode ser melhor não usar o arquivo ou não usá-lo de forma restritiva.
Quando você tem conteúdo confidencial ou privado, que requer autenticação, como informações privadas do usuário ou áreas restritas, o arquivo robots.txt não é uma forma adequada de ocultar esse conteúdo. Em vez disso, você deve usar métodos de autenticação para proteger essas áreas do site.
Embora o arquivo robots.txt seja uma ferramenta útil para controlar o acesso dos mecanismos de busca ao seu site, é importante entender suas limitações. As instruções são apenas diretivas e a interpretação da sintaxe pode variar entre os mecanismos de busca. Vamos saber mais sobre essas limitações a seguir:
O arquivo robots.txt fornece instruções aos mecanismos de busca sobre como eles deveriam rastrear e indexar o seu site. No entanto, essas instruções são apenas sugestões e dependem da conformidade e implementação correta dos mecanismos de busca. Alguns rastreadores podem optar por ignorar essas diretivas se considerarem necessário.
Embora exista uma sintaxe padrão para o arquivo robots.txt, cada robô de busca pode interpretá-la de maneiras ligeiramente diferentes. Alguns podem ser mais rigorosos na interpretação das regras, enquanto outros podem ser mais flexíveis. Isso pode levar a diferenças no comportamento dos mecanismos de busca em relação às regras definidas no arquivo robots.txt.
O arquivo robots.txt é específico para o seu próprio site e tem como objetivo controlar o acesso dos mecanismos de busca. No entanto, ele não impede que outros sites façam referência às URLs do seu site ou criem links para elas. Portanto, é possível que as URLs bloqueadas pelo arquivo robots.txt ainda sejam descobertas e acessadas por meio de outros meios, como referências externas.
Se você deseja definir regras diferentes para diferentes mecanismos de busca, pode ser necessário especificar ordens específicas para cada robô de busca no arquivo robots.txt. Isso ocorre porque diferentes mecanismos de busca podem ter agentes de usuário (user-agents) específicos e comportamentos de rastreamento diferentes. Portanto, é importante considerar as peculiaridades de cada mecanismo de busca ao definir regras no arquivo robots.txt.
Para acessar o arquivo robots.txt de um site, você pode seguir estas etapas:
Isso abrirá o arquivo robots.txt do site no navegador da web. Você poderá ver as regras e diretivas definidas no arquivo.
Para testar o arquivo robots.txt, você pode usar as ferramentas de teste e validação fornecidas pelos mecanismos de busca, como o Google Search Console ou o Bing Webmaster Tools. Essas ferramentas permitem que você teste o arquivo robots.txt para verificar se as regras estão sendo interpretadas corretamente pelos mecanismos de busca.
Essas ferramentas ajudam a identificar erros de sintaxe, problemas de bloqueio ou permissões incorretas que podem estar presentes no arquivo robots.txt. Elas fornecem informações valiosas sobre como os mecanismos de busca estão interpretando as regras do arquivo e permitem que você faça ajustes necessários para otimizar o rastreamento e indexação do seu site.
Agora você já sabe como usar o arquivo robots.txt corretamente e extrair ao máximo os benefícios desta funcionalidade. Porém, se precisar de ajuda, já sabe: conte com a SEO Happy Hour! Nossa equipe de especialistas está sempre pronta para auxiliar sua equipe de desenvolvimento a implementar corretamente o arquivo robots no seu site.
Entre em contato conosco e faça um orçamento sem compromisso!
Comentários