Índice
Quando os mecanismos de pesquisa chegam a um site, eles começam a procurar o arquivo robots.txt para lê-lo. Dependerá do seu conteúdo para que o mecanismo de busca continue dentro do site ou vá para outro.O arquivo robots.txt contém uma lista de páginas que podem ser indexadas pelo mecanismo de pesquisa, por sua vez, restringindo seletivamente o acesso a determinados mecanismos de pesquisa.
Este é um arquivo ASCII que deve estar localizado na raiz do site. Os comandos que ele pode conter são:
Usuário agente: É usado para especificar qual robô seguirá as ordens que são apresentadas.
Não permitir: Serve para identificar quais páginas serão excluídas durante o processo de análise pelo mecanismo de busca. É importante que cada página a ser excluída tenha linhas separadas e também comece com o símbolo /. Com esta simbologia, ele está sendo especificado; para "todas as páginas do site".
É extremamente importante que o arquivo robots.txt não tenha nenhuma linha vazia.
Alguns exemplos são mostrados abaixo;
- Quando você deseja excluir todas as páginas; o agente do usuário é: Não permitir: /.
- Se o objetivo não é excluir nenhuma página, então o arquivo robotos.txt não deve existir no site, ou seja, todas as páginas do site serão visitadas igualmente.
- Quando um robô específico for excluído, ele será:
- Usuário do agente: Nome do robô Não permitir: / Usuário do agente: * Não permitir:
- Quando uma página é excluída; Usuário agente: * Não permitir: /directory/path/page.html
- Quando todas as páginas de um diretório forem excluídas do site com suas subpastas correspondentes, será; Usuário agente: * Não permitir: / diretório /
Outra funcionalidade é evitar a indexação de conteúdo duplicado encontrado no site, para não ser penalizado.
Outras considerações a serem levadas em consideração são que alguns robôs podem ignorar as instruções apresentadas neste arquivo, e também deve ficar claro que o arquivo é público, pois qualquer pessoa que escrever www.example.com/robots.txt pode ter acesso a ele.
Agora a pergunta pode ser; Como gerar o arquivo robots.txt?
Na verdade é bastante simples já que se trata de um documento de texto com o nome “robots.txt” e depois carrega-o na raiz do domínio da página, é lá onde os motores de busca irão procurar para que seja lido.
Um arquivo robots.txt básico pode ser:
Agente de usuário: *
Disallow: / private /
As instruções são geradas para negar acesso a um diretório que será "privado" para todos os mecanismos de pesquisa.
O comando determina que é endereçado a todos os robôs (User-agent: *), especificando que o diretório não é permitido (Disallow: / private /).
O parâmetro usado para o mecanismo de pesquisa do Google é; User-agent: Googlebot
Como mencionado anteriormente, seu uso em SEO é usado para restringir o acesso de robôs para duplicar conteúdo.Gostou e ajudou este tutorial?Você pode recompensar o autor pressionando este botão para dar a ele um ponto positivo