Como escrever e enviar um arquivo robots.txt

É possível controlar quais arquivos os rastreadores podem acessar no seu site com um arquivo robots.txt.

O arquivo robots.txt fica na raiz do seu site. Por isso, no site www.example.com, o arquivo robots.txt aparece como www.example.com/robots.txt. O robots.txt é um arquivo de texto simples que segue o protocolo de exclusão de robôs (em inglês). Um arquivo robots.txt é constituído por uma ou mais regras. Cada regra bloqueia ou permite o acesso de um determinado rastreador a um caminho de arquivo especificado no domínio ou subdomínio em que o arquivo robots.txt está hospedado. A menos que você especifique o contrário no arquivo robots.txt, o rastreamento de todos os arquivos vai ser permitido de forma implícita.

Confira um arquivo robots.txt simples, com duas regras:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: https://www.example.com/sitemap.xml

Saiba o que esse arquivo robots.txt significa:

  1. O user agent chamado "Googlebot" não vai poder rastrear qualquer URL que comece com https://example.com/nogooglebot/.
  2. Os outros user agents vão poder rastrear todo o site. Essa informação poderia ter sido omitida, e o resultado seria o mesmo. O comportamento padrão é que os user agents tenham permissão para rastrear todo o site.
  3. O arquivo do sitemap está localizado em https://www.example.com/sitemap.xml.

Consulte a seção Sintaxe para conferir outros exemplos.

Diretrizes básicas para criar um arquivo robots.txt

Veja as quatro etapas para criar um arquivo robots.txt e torná-lo acessível e útil para todos:

  1. Crie um arquivo chamado "robots.txt".
  2. Adicione regras ao arquivo robots.txt.
  3. Faça upload do arquivo robots.txt para a raiz do seu site.
  4. Teste o arquivo robots.txt.

Criar um arquivo robots.txt

É possível usar praticamente todos os editores de texto para criar um arquivo robots.txt. Por exemplo, o Bloco de Notas, TextEdit, vi e Emacs podem criar arquivos robots.txt válidos. Não use um processador de texto, porque muitas vezes esses programas salvam os arquivos em formatos próprios e podem adicionar caracteres inesperados, como aspas curvas. Isso pode causar problemas para os rastreadores. Salve o arquivo com a codificação UTF-8 caso seja solicitado na caixa de diálogo "Salvar arquivo".

Regras de formato e localização:

  • O arquivo precisa ter o nome robots.txt.
  • O site pode ter somente um arquivo robots.txt.
  • O arquivo robots.txt precisa estar localizado na raiz do host do site a que se refere. Por exemplo, para controlar o rastreamento em todos os URLs abaixo de https://www.example.com/, o arquivo robots.txt precisa estar localizado em https://www.example.com/robots.txt. Ele não pode ser colocado em um subdiretório (por exemplo, em https://example.com/pages/robots.txt). Caso você tenha dúvidas sobre como acessar a raiz do site ou precise de permissões para fazer isso, entre em contato com o provedor de serviços de hospedagem na Web. Se não for possível acessar a raiz do site, use métodos alternativos de bloqueio, como tags meta.
  • Os arquivos robots.txt podem ser postados em subdomínios (por exemplo, https://site.example.com/robots.txt) ou em portas não padrão (como https://example.com:8181/robots.txt).
  • Os arquivos robots.txt são aplicados somente aos caminhos no protocolo, no host e na porta em que foram postados. Ou seja, as regras em https://example.com/robots.txt são aplicadas somente aos arquivos em https://example.com/, não a subdomínios, como https://m.example.com/, nem a protocolos alternativos, como http://example.com/.
  • O robots.txt precisa ser um arquivo de texto codificado em UTF-8 (o que inclui ASCII). É possível que o Google ignore caracteres que não fazem parte do intervalo UTF-8, o que pode tornar as regras do robots.txt inválidas.

Como criar regras do robots.txt

As regras são instruções para os rastreadores sobre quais partes do site podem ser rastreadas. Siga estas diretrizes ao adicionar regras ao seu arquivo robots.txt:

  • Um arquivo robots.txt é constituído por um ou mais grupos (conjunto de regras).
  • Cada grupo consiste em várias regras (também conhecidas como diretivas), uma regra por linha. Cada grupo começa com uma linha de User-agent que especifica o destino dos grupos.
  • Um grupo disponibiliza as seguintes informações:
    • A quem o grupo se aplica (o user agent).
    • Quais diretórios ou arquivos esse user agent pode acessar.
    • Quais diretórios ou arquivos esse user agent não pode acessar.
  • Os rastreadores processam os grupos de cima para baixo. Um user agent pode corresponder a somente um conjunto de regras (o primeiro e mais específico grupo que for correspondente a determinado user agent). Se houver vários grupos para o mesmo user agent, eles vão ser combinados em um único grupo antes do processamento.
  • Por padrão, um user agent pode rastrear uma página ou um diretório que não esteja bloqueado por uma regra disallow.
  • As regras diferenciam maiúsculas de minúsculas. Por exemplo, disallow: /file.asp será aplicado em https://www.example.com/file.asp, mas não em https://www.example.com/FILE.asp.
  • O caractere # marca o início de um comentário. Os comentários são ignorados durante o processamento.

Os rastreadores do Google são compatíveis com as seguintes regras em arquivos robots.txt:

  • user-agent: [obrigatório, um ou mais por grupo] a regra especifica o nome do cliente automático conhecido como rastreador do mecanismo de pesquisa a que a regra se aplica. Essa é a primeira linha de qualquer grupo de regras. Os nomes dos user agents do Google podem ser encontrados na lista de user agents do Google. O uso de um asterisco (*) corresponde a todos os rastreadores, exceto aos diversos rastreadores Google AdsBot, que precisam ser nomeados explicitamente. Exemplo:
    # Example 1: Block only Googlebot
    User-agent: Googlebot
    Disallow: /
    
    # Example 2: Block Googlebot and Adsbot
    User-agent: Googlebot
    User-agent: AdsBot-Google
    Disallow: /
    
    # Example 3: Block all crawlers except AdsBot (AdsBot crawlers must be named explicitly)
    User-agent: *
    Disallow: /
  • disallow: [ao menos uma ou mais entradas disallow ou allow por regra] é um diretório ou uma página, referente ao domínio raiz, que você não quer que o user agent rastreie. Se a regra se referir a uma página, use o nome completo dela conforme exibido no navegador. É preciso começar com um caractere /. No caso de um diretório, é necessário terminar com uma marca /.
  • allow: [ao menos uma ou mais entradas disallow ou allow por regra] é uma página ou um diretório, referente ao domínio raiz, que pode ser rastreado pelo user agent citado anteriormente. É usado para substituir uma regra disallow para permitir o rastreamento de um subdiretório ou de uma página em um diretório não permitido. Para uma única página, especifique o nome completo dela conforme exibido no navegador. É preciso começar com um caractere /. No caso de um diretório, é preciso terminar com uma marca /.
  • sitemap: [opcional, zero ou mais por arquivo] é a localização de um sitemap do site. O URL do sitemap precisa ser totalmente qualificado. O Google não supõe nem verifica as variações de http/https/www/sem www. O uso dos sitemaps é uma boa maneira de indicar qual conteúdo o Google deve rastrear, em vez de o que pode ou não pode ser rastreado pelo mecanismo de pesquisa. Saiba mais sobre os sitemaps. Exemplo:
    Sitemap: https://example.com/sitemap.xml
    Sitemap: https://www.example.com/sitemap.xml

Todas as regras, exceto sitemap, são compatíveis com o caractere curinga * em prefixos, sufixos ou strings completas de caminhos.

As linhas que não corresponderem a nenhuma dessas regras vão ser ignoradas.

Leia nossa página sobre como o Google interpreta a especificação de robots.txt para conferir a descrição completa de cada regra.

Fazer upload do arquivo robots.txt

Depois de salvar o arquivo robots.txt no seu computador, ele vai poder disponibilizado para os rastreadores de mecanismos de pesquisa. Não há uma determinada ferramenta que possa ajudar com isso, porque a forma como você faz upload do arquivo robots.txt para seu site depende das arquiteturas do servidor e do site. Entre em contato com a empresa de hospedagem ou pesquise a documentação dela. Por exemplo, pesquise "fazer upload de arquivos no Infomaniak".

Depois de fazer upload do arquivo robots.txt, confira se ele está acessível publicamente e se o Google pode fazer a análise.

Testar a marcação do arquivo robots.txt

Para testar se o arquivo robots.txt recém-enviado está acessível para o público, abra uma janela de navegação anônima (ou equivalente) no seu navegador e acesse o local do arquivo robots.txt. Por exemplo, https://example.com/robots.txt. Quando o conteúdo do seu arquivo robots.txt for exibido, vai estar tudo pronto para testar a marcação.

O Google oferece duas opções para corrigir problemas com a marcação de robots.txt:

  1. O relatório de robots.txt no Search Console. Só é possível usar esse relatório para arquivos robots.txt que já podem ser acessados no seu site.
  2. Se você é um desenvolvedor, confira e ajude a construir a biblioteca robots.txt de código aberto do Google, que também é usada na Pesquisa Google. Você pode usar essa ferramenta para testar arquivos robots.txt localmente no seu computador.

Enviar o arquivo robots.txt para o Google

Depois que você fizer upload e testar o arquivo robots.txt, os rastreadores do Google vão encontrar e começar a usar seu arquivo robots.txt automaticamente. Não é necessário fazer nada. Se você alterou seu arquivo robots.txt e precisa atualizar a cópia em cache do Google o mais rápido possível, saiba como enviar um arquivo robots.txt atualizado.

Regras úteis do arquivo robots.txt

Veja aqui algumas regras úteis do arquivo robots.txt:

Regras úteis
Não permitir o rastreamento do site inteiro

Em algumas situações, os URLs do site ainda poderão ser indexados, mesmo que não tenham sido rastreados.

User-agent: *
Disallow: /
Não permitir o rastreamento de um diretório e o conteúdo dele

Acrescente uma barra depois do nome do diretório para não permitir o rastreamento do diretório inteiro.

User-agent: *
Disallow: /calendar/
Disallow: /junk/
Disallow: /books/fiction/contemporary/
Permitir acesso a um único rastreador

Somente o googlebot-news poderá rastrear o site inteiro.

User-agent: Googlebot-news
Allow: /

User-agent: *
Disallow: /
Permitir acesso a todos os rastreadores, exceto um deles

O Unnecessarybot não poderá rastrear o site, mas os outros bots poderão.

User-agent: Unnecessarybot
Disallow: /

User-agent: *
Allow: /

Não permitir o rastreamento de uma página da Web

Por exemplo, não permitir a página useless_file.html localizada em https://example.com/useless_file.html e other_useless_file.html no diretório junk.

User-agent: *
Disallow: /useless_file.html
Disallow: /junk/other_useless_file.html

Impedir o rastreamento do site inteiro, exceto um subdiretório

Os rastreadores só podem acessar o subdiretório public.

User-agent: *
Disallow: /
Allow: /public/

Bloquear uma imagem específica das Imagens do Google

Por exemplo, não permitir a imagem dogs.jpg.

User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

Bloquear todas as imagens do seu site das Imagens do Google

O Google não consegue indexar imagens e vídeos sem rastreá-los.

User-agent: Googlebot-Image
Disallow: /

Não permitir o rastreamento de arquivos de um tipo específico

Por exemplo, não permitir o rastreamento de todos os arquivos .gif.

User-agent: Googlebot
Disallow: /*.gif$

Não permitir o rastreamento de um site inteiro, mas permitir o Mediapartners-Google

Essa implementação oculta as páginas dos resultados da pesquisa, mas o rastreador da Web Mediapartners-Google ainda vai poder fazer a análise delas e decidir quais anúncios exibir aos visitantes do site.

User-agent: *
Disallow: /

User-agent: Mediapartners-Google
Allow: /
Usar os caracteres curinga * e $ para corresponder a URLs que terminam com uma string específica.

Por exemplo, não permitir todos os arquivos .xls.

User-agent: Googlebot
Disallow: /*.xls$