✅ Robots.txt ou padrão de exclusão de robôs e rastreamento de mecanismo de pesquisa

Índice

Olá a todos, começo com este tutorial sobre o robots.txt, espero que gostem

Permitir que todos os robôs visitem todos os arquivos armazenados no diretório raiz da web:

 User-agent: * Disallow:

Impedir o acesso a todos os robôs e todos os arquivos armazenados no diretório raiz:

 User-agent: * Disallow: /

Permita que apenas um robô acesse, neste exemplo, apenas o Google será capaz de rastrear

 User-agent: googlebot Disallow: User-agent: * Disallow: /

Os robôs mais populares têm um nome para usar no agente de usuário
googlebot => para o Google
msnbot => Pesquisa MSN
yahoo-slurp => Yahoo!
scrubby => Scrub The Web
robozilla => DMOZ Checker
ia_archiver => Alexa / Wayback
baiduspider => Baidu
Existem também os robôs mais específicos, como os das imagens
googlebot-image => imagem do Google
googlebot-mobile => Google Mobile
Outro exemplo para que todos os subdiretórios que incluem o caractere curinga (/) sejam bloqueados, somente estes, exceto para todos os outros arquivos e diretórios que não contenham um caractere curinga, nominalmente o sistema ou os diretórios de back end são bloqueados:

 User-agent: * Disallow: / cgi-bin / Disallow: / images / Disallow: / tmp / Disallow: / adminstrador /

Impedir que um arquivo específico seja rastreado

 User-agent: * Disallow: /page.htm

Isso é muito usado quando queremos eliminar uma página que dá um erro 404 ou para eliminar uma página dos resultados da pesquisa, evitando assim que seja rastreada.
Gerenciar a frequência de robôs rastreadores
A partir de Analítica do Google e de webmastertools você pode ver as estatísticas também pode ver que às vezes alguns robôs demoram muito para revisar nosso site e enviar solicitações ao servidor, os robôs consomem largura de banda e recursos como se fossem apenas mais um visitante.
Existe uma maneira de os robôs não ficarem fora de controle, podemos dizer a cada um
User-agent: googlebot Crawl-delay: 30
Com isso informamos ao robô do Google que espere 30 segundos entre cada rastreamento. Tenha cuidado, porque o atraso de rastreamento pode não ser compatível com todos os mecanismos de pesquisa, como o Bing e o Google têm.
O site oficial de robots.txt É http://www.robotstxt.org/ onde encontraremos os nomes de todos os robôs, especificações sobre o código. Aqui fica exposto que os robôs servem para padronizar aqueles que devem ser rastreados e são usados em outras plataformas para rastrear e validar html, validar links, indexar informações, atualizar conteúdo em buscadores, proteger sites.Gostou e ajudou este tutorial?Você pode recompensar o autor pressionando este botão para dar a ele um ponto positivo