Índice
Googlebot é um robô que permite rastrear a teia de Google, também é conhecido como Google spider. Desta forma, o sistema descobre as novas páginas que foram indexadas em seu banco de dados onde são atualizadas e são incorporadas de volta ao índice do Google.Google usa uma grande quantidade de equipamentos de informática para rastrear bilhões de páginas que são distribuídas na web. É baseado em um processo de rastreamento algorítmico, onde programas de computador determinam os sites a serem rastreados, bem como a frequência e o número de páginas a serem pesquisadas em cada site. O processo começa com uma lista de páginas da web gerada anteriormente, que é ampliada com base nos dados fornecidos pelos mapas do site que os webmasters incorporam. O Googlebot detecta os links em cada visita que você faz a esses sites, adicionando-os à lista de páginas a serem rastreadas. O sistema detecta novos sites, alterações feitas nos existentes e links desatualizados e, a seguir, atualiza o índice do Google.
Como o Googlebot acessa o site
Googlebot você geralmente não acessa sites mais de uma vez e por alguns segundos. Geralmente, o sistema baixa apenas uma cópia de cada página, caso você baixe a mesma página várias vezes, provavelmente é devido à interrupção e reinicialização do rastreador.
O Googlebot é distribuído em vários computadores, além de alguns spiders executados em computadores localizados próximos aos sites que eles indexam. Pode ser que os logs de página mostrem visitas de vários computadores como agente de usuário.
O objetivo é rastrear o maior número de páginas em um site em cada visita que você faz, sem reduzir a largura de banda do servidor.
O sistema encontra sites por meio dos links em suas páginas. Em caso de erros de rastreamento, eles podem ser vistos nas Ferramentas do Google para webmasters. Ele lista os problemas encontrados ao rastrear um site. É uma boa ideia verificar regularmente quaisquer erros de rastreamento que possam surgir para identificá-los e corrigi-los.
Como os endereços IP manipulados pelo Googlebot tendem a variar de tempos em tempos, o ideal é usar o robô "user-agent" (Googlebot). O Google spider respeitará as diretrizes encontradas no arquivo robots.txt, no entanto, usuários mal-intencionados não podem segui-las.