Manual:robots.txt/pt-br
Os arquivos robots.txt são parte do Padrão de Exclusão de Robôs, e pode ajudar com Search engine optimization . Eles dizem ao robô web como indexar um site. Um arquivo robots.txt deve ser colocado no web root de um domínio.
Exemplos
Previna toda indexação
Este código impede que todos os bots indexem todas as páginas em seu site:
User-agent: *
Disallow: /
Se você só deseja bloquear uma certa web spider, substitua o asterisco com o agente de usuário da web spider.
Impeça a indexação de páginas que não sejam artigos
O MediaWiki gera muitas páginas que são úteis apenas para os seres humanos vivos: revisões antigas e diffs tendem a duplicar o conteúdo encontrado em artigos. Edite as páginas e a maioria das páginas especiais são geradas dinamicamente, o que as torna úteis apenas para os editores humanos e relativamente dispendioso para os servidores. Se não for orientado de outra forma, as web spiders podem tentar indexar milhares de páginas semelhantes, sobrecarregando o servidor.
Com URLs curtas
É fácil evitar que web spiders indexem páginas que não são artigos se você estiver usando URLs curtas ao estilo Wikipédia.
Supondo que artigos são acessíveis através de /wiki/Some_title
e qualquer outra coisa está disponível através de $query:
User-agent: *
Disallow: /w/
Tenha cuidado, porém! Se você colocar essa linha por acidente:
Disallow: /w
você vai bloquear o acesso ao diretório /wiki, e os mecanismos de busca irão ignorar sua wiki!
Esteja ciente de que esta solução também fará com que o CSS, o JavaScript e os arquivos de imagem sejam bloqueados, de modo que os motores de busca como o Google não poderão fazer visualizações de artigos do wiki.
To work around this, instead of blocking the entire /w
directory, only index.php
need be blocked:
User-agent: *
Disallow: /w/index.php?
This works because CSS and JavaScript is retrieved via /w/load.php
.
Alternativamente, você pode fazê-lo como é feito no farm Wikimedia:
User-agent: *
Allow: /w/load.php?
Disallow: /w/
Sem URLs curtas
Se não estiver usando URLs curtas, restringir robôs é um pouco mais difícil. Se você estiver executando PHP como CGI e você não tem URLs embelezadas, de modo que os artigos sejam acessíveis através de /index.php?title=Some_title
:
User-agent: *
Disallow: /index.php?diff=
Disallow: /index.php?oldid=
Disallow: /index.php?title=Help
Disallow: /index.php?title=Image
Disallow: /index.php?title=MediaWiki
Disallow: /index.php?title=Special:
Disallow: /index.php?title=Template
Disallow: /skins/
Se estiver executando o PHP como módulo do Apache e você não tenha embelezado as URLs, de modo que os artigos são acessíveis através de Special:MyLanguage/Apache configuration#PHP as Apache Module:
User-agent: *
Disallow: /index.php?
Disallow: /index.php/Help
Disallow: /index.php/MediaWiki
Disallow: /index.php/Special:
Disallow: /index.php/Template
Disallow: /skins/
As linhas sem os dois pontos (:) no final restringem as páginas de discussão desses namespaces.
As wikis que não estão em inglês podem precisar adicionar várias traduções das linhas acima.
You may wish to omit the /skins/
restriction, as this will prevent images belonging to the skin from being accessed.
Search engines which render preview images, such as Google, will show articles with missing images if they cannot access the /skins/
directory.
Você pode tentar também
Disallow: /*&
porque alguns robôs como o Googlebot aceitam esta extensão curinga para o padrão robots.txt, o que impede a maioria do que nós não queremos robôs vasculhando, assim como a solução /w/ acima.
Contudo, isso sofre as mesmas limitações na medida em que bloqueia o acesso ao CSS, impedindo que os mecanismos de pesquisa renderizem corretamente as imagens de pré-visualização.
It may be possible to solve this by adding another line, Allow: /load.php
however at the time of writing this is untested.
Permitir a indexação de páginas brutas pelo Internet Archiver
Você pode querer permitir que o Internet Archiver indexe páginas brutas, para que o wikitexto bruto das páginas estejam em gravação permanente. Desta forma, será mais fácil, caso a wiki caia, para que as pessoas coloquem o conteúdo em outra wiki. Você poderia usar:
# Allow the Internet Archiver to index action=raw and thereby store the raw wikitext of pages
User-agent: ia_archiver
Allow: /*&action=raw
Problemas
Controle de taxa
É possível especificar apenas quais caminhos um bot é permitido rastrear. Mesmo permitindo apenas a área de página simples, pode ser um enorme fardo, quando duas ou três páginas por segundo estão sendo solicitadas por uma web spider, mais de duzentas mil páginas.
Alguns bots têm uma especificação personalizada para isto; O Inktomi responde a uma linha "Crawl-delay" que pode especificar o tempo mínimo, em segundos, entre hits. (Seu padrão é de 15 segundos.)
Bots maus
Às vezes, um bot escrito sob medida não é muito inteligente ou é completamente malicioso e não obedece o robots.txt em tudo (ou obedece as restrições de caminho, mas rastreia muito rapidamente, atolando o site). Pode ser necessário bloquear strings de agente de usuário específicas ou IPs individuais de infratores.
There are a couple of alternatives to consider implementing in your web configuration:
- It may be necessary to block specific user-agent strings or individual IPs of offenders.
- Em termos mais gerais, o pedido de limitação pode parar esses bots sem a necessidade de sua intervenção repetida.
- Uma estratégia alternativa ou complementar é implantar uma spider trap.
Rastreamento X indexação
Enquanto o robots.txt impede bots não-malignos de baixar a URL, não os impede de indexá-la.
Isso significa que elas ainda podem aparecer nos resultados do Google e outros mecanismos de busca, desde que existam links externos apontando para eles.
(O que é pior, uma vez que que os bots não baixam essas páginas, meta tags noindex colocadas nelas não terão efeito.)
Para páginas wiki individuais, a palavra mágica __NOINDEX__
pode ser uma opção mais confiável para mantê-las fora dos resultados de busca.