Como realizar o bloqueio de indexação via arquivo robots.txt?

De Wiki
Ir para: navegação, pesquisa

O arquivo robots.txt é usado para indicar os diretórios ou arquivos do site que não devem ser acessados pelos robôs de indexação, conhecidos como bots e crawlers, dos mecanismos de busca, como o Google, Bing e o Baidu.

Caso seu site não tenha o arquivo robots.txt, os mecanismos de busca irão indexá-lo normalmente. Caso contrário, é possível controlar quais diretórios ou arquivos serão pesquisáveis nos mecanismos de busca que respeitam o padrão robots.txt. O uso mais comum desse recurso é para evitar a indexação de páginas relacionadas à administração do site ou de scripts que causam sobrecarga quando varridos pelos robôs dos buscadores.

Criar robots.txt

O arquivo robots.txt deve ser criado como texto simples (sem formatação ou caracteres especiais) e salvo na raiz do site. Ele deve conter a lista dos diretórios e arquivos que você deseja bloquear das ferramentas de busca.

Exemplo: o conteúdo abaixo orienta todos os robôs (User-agent) a não indexarem o arquivo print.html:

User-agent: * 
Disallow: print.html 

NOTA: A utilização do caractere “*"(asterisco) em User-agent determina que a regra valha para todos os robôs.

Bloquear conjunto de arquivos

Também é possível desabilitar um conjunto de arquivos específicos utilizando o caractere “*” (asterisco) na linha em que é descrito o arquivo ou diretório à ser desindexado.

Exemplo: o conteúdo abaixo orienta todos os robôs a bloquear a indexação de todas as URLs que contenham a palavra “script”, independentemente da localização do diretório ou arquivo:

User-agent: *
Disallow: /*script

Bloquear arquivos e diretórios específicos

O arquivo robots.txt também possibilita criar regras para bloquear a indexação de diretórios ou arquivos específicos.

Exemplo: o conteúdo abaixo orienta todos os robôs a bloquear a indexação de todo o conteúdo dos diretórios config, admin/script e temp.

User-agent: *
Disallow: /config 
Disallow: /admin/script 
Disallow: /temp/

O efeito das linhas acima é bloquear a indexação de URLs de:

  • /config: /config, /config.html, /config/install.php, /configurador, /config/index.php?id=123, etc.
  • /admin/script: /admin/script, /admin/scripts, /admin/script/index.html, etc.
  • /temp/: /temp/, /temp/arquivo, /temp/dir/sess.txt, etc.

Bloquear toda a indexação do site

Para bloquear totalmente a indexação do todo seu conteúdo FTP (não recomendado), utilize:

User-agent: *
Disallow: /

Criar regras específicas para cada robô

Você também pode criar regras específicas para cada robô de busca. Para isto, troque o caractere “*” (asterisco) da variável User-agent pelo nome do robô.

Exemplo: o conteúdo abaixo permite que somente o robô do Google (Googlebot) realize a indexação de todo seu conteúdo FTP:

User-agent: * 
Disallow: / 
User-agent: Googlebot 
Allow: /

NOTAS:

  • A lista dos bots (ou crawlers) ativos na internet é extensa e é atualizada com frequência. Os principais são: Googlebot, Baidu Spider, MSN Bot/BingBot, Yandex Bot, Soso Spider, ExaBot, Sogou Spider, Google Plus Share, Facebook External Hit e Google Feedfetcher.
  • É possível consultar listas mais completas de bots através dos sites: