Como clonar qualquer site com HTTrack

Índice

HTTrack é um software gratuito, gratuito e multiplataforma que tem por objetivo a captura web, ou seja, é feito o download de todo ou parte de um site, para depois poder navegar off-line. Existe uma versão para Linux chamada WebHTTrack, e sua versão para Windows é chamada WinHTTrack. Podemos baixar o software HTTrack de seu site oficial:

No caso do Linux, também podemos instalá-lo a partir dos repositórios, usando o seguinte comando.

 sudo apt-get install httrack

Este software é muito usado para copiar sites e, em seguida, carregue-os em outro servidor e use-os para redirecionar o tráfego para a página de cópia, enviando os visitantes para uma página falsa. Também é usado por quem deseja ver o código ou o funcionamento de um determinado site. Vejamos um exemplo com o site httrack.com, onde o aplicativo está hospedado.

 httrack "httrack.com"
Este comando irá baixar os arquivos da web para uma pasta www.httrack.com, que podemos ver localmente.

HTTrack pega qualquer site e faz uma cópia na pasta ou drive onde estamos posicionados. Isso pode ser útil ao pesquisar dados no site off-line, como endereços de e-mail, informações úteis para seo ou estrutura de um site. O HTTrack vem tanto no Windows quanto na versão para Linux, e o uso é o mesmo só que no Windows tem intergaz visual.

Pudermos use Httrack para teste de penetração e teste de segurança, pois ao fazer uma réplica de um site permite analisar o conteúdo completo e quais arquivos são baixados, para determinar que nenhum arquivo crítico seja visto por um invasor. Quando coletamos dados e informações, podemos realizar testes, pesquisar e analisar códigos ou palavras-chave, também podemos coletar dados que podem ser usados ​​posteriormente.

Também desta forma euhackers usam as cópias feitas para enviá-lo a um servidor com um domínio semelhante à web copiado para emular os sites e, em seguida, usá-los por meio de phishing para roubar dados de usuários desavisados ​​ou para realizar ataques de engenharia social. O Httrack tem muitas opções e parâmetros para usar para melhorar o download, pois o comando é usado:

 httrack --help

Alguns parâmetros importantes que podemos usar com a ferramenta Httrack são:

  • -m: indica o tamanho máximo do arquivo em bytes para download, por exemplo -m 20000000 equivalente a 20 MB.
  • -mime: usado para baixar apenas um determinado tipo de arquivo que iremos indicar com sua extensão, por exemplo com o comando
 httrack www.WEB.com -mime: application / * + mime: application / pdf
Usar o httrack é simples, devemos adicionar o domínio do site que queremos copiar e, em seguida, iniciar a digitalização posicionados em um diretório em nosso disco rígido onde iremos armazenar o site. Devemos levar em consideração quantos links ou conteúdos um site pode ter devido à quantidade de informações para download. Explorar a cópia da web pode ser usado para procurar falhas e vulnerabilidades que podem colocar a navegação em risco, bem como para determinar quais partes é conveniente criptografar ou aumentar a segurança.

Se o objetivo do download é encontrar informações sobre uma empresa ou listas de usuários, telefones ou outros dados em particular para engenharia social ou tentar falsificar um site ou um login para obter dados do usuário, HTTrack é uma excelente ferramenta para ambas as tarefas.

Interface gráfica com WebHTTrack
WebHTTrack é uma interface gráfica para httrack usada em um navegador da web e permite cópias de sites inteiros para acesso offline e modifica links automaticamente. Ferramentas como o WebHTTrack podem ajudar e permitir a atualização da cópia sem ter que lembrar os parâmetros para baixar ou copiar um site e seu conteúdo. Podemos instalá-lo com o comando:

 sudo apt-get install webhttrack
Então, para executá-lo vamos escrever o mesmo comando:
 webhttrack
Para inicie a interface gráfica, podemos acessar diretamente o menu de aplicativos e estamos procurando o aplicativo Browse Mirrored Websites.

Outra opção é simplesmente, como dissemos antes na janela do terminal, escrever o comando webhttrack para iniciar um servidor web local na porta 8080, então abrimos o navegador levando em consideração que ele não está no modo anônimo ou privado e no navegador, escrevemos o endereço localhost: 8080.

Isso nos mostrará o assistente gráfico que nos ajudará a trabalhar com o httrack, para começar teremos que configurar o idioma e clicar em Avançar. A seguir vamos configurar um Novo Projeto, a vantagem de ter a interface gráfica é que podemos salvar os dados dos sites baixados e os parâmetros usados ​​em um arquivo de texto.

Em seguida, atribuiremos o site que iremos copiar:

Em seguida, em Definir opções, configuraremos os parâmetros e filtros por meio de um assistente:

Depois de configurar os filtros, na próxima tela iniciaremos a varredura.

Desvantagens de usar HttrackUsar a ferramenta Httrack para realizar esse tipo de digitalização e download de um site tem algumas desvantagens, como as seguintes:

  • Ele não captura conteúdo dinâmico ou páginas com script.
  • Baixar sites muito grandes ou com arquivos grandes pode fazer com que o servidor trave.
  • Se usarmos o httrack em muitas conexões simultâneas ao mesmo site, poderemos deixar o servidor lento ou tirá-lo de serviço.

O tutorial em que um código é feito para rastrear links pode ser do seu interesse:

Rastreie links da web com Python

Gostou e ajudou este tutorial?Você pode recompensar o autor pressionando este botão para dar a ele um ponto positivo

Você vai ajudar o desenvolvimento do site, compartilhando a página com seus amigos

wave wave wave wave wave