Python - HTMLParser

Índice
Ao realizar o trabalho com o analisador em Pitão é recomendado que, se trabalharmos com documentos HTML usar padrão XHTML, já que este último é mais rígido no que diz respeito ao manuseio das tags de abertura e fechamento dos elementos, com isso podemos fazer mais facilmente programas que podem interpretar isso.
Em Pitão nós temos disponível HTMLParser, isso não deve ser confundido com a classe do mesmo nome de módulo htmllib, já que o primeiro faz parte da biblioteca padrão, quando obtemos um documento de Arrumado podemos usar HMTLParser para poder navegar em seu conteúdo.
Usando HTMLParser
Use o HTMLParser, isso realmente significa subclassificá-lo, para que possamos sobrescrever os métodos em nossa conveniência e, assim, sermos capazes de atender aos nossos requisitos, vamos ver abaixo uma lista dos principais métodos que obtemos ao usar HTMLParser.
  • handle_starttag (tag, attrs): Quando uma tag inicial é encontrada, attrs é uma sequência de pares (nome, valor).
  • handle_startendtag (tag, attrs): Usado para rótulos vazios. Por padrão, ele lida com a inicialização e o desligamento separadamente.
  • handle_endtag (tag): Usado quando uma tag de fechamento é encontrada.
  • handle_data (data): É usado quando encontramos dados textuais.
  • handle_charref (ref): É usado ao trabalhar com referências de caracteres do formulário & # ref;.
  • handle_entityref (nome): Nós o usamos quando temos referências a entidades da forma & name;.
  • handle_comment (data): Só é chamado quando há conteúdo comentado.
  • handle_decl (decl): É usado para declarações do formulário.
  • handle_pi (dados): É usado para processar instruções.
Uma vez que vimos os principais métodos de HTMLParserA seguir, veremos uma imagem com um exemplo de código e, em seguida, explicaremos em que consiste:

PROLONGAR

A primeira coisa que notamos é que para este Screen Scraping nós não vamos usar ArrumadoIsso ocorre porque o HTML que vamos inspecionar não está malformado, então vemos que a primeira coisa que declaramos são algumas variáveis ​​booleanas com as quais controlaremos se estamos dentro de um elemento H4 ou em um elemento de link ou link.
Temos algo em particular com o método handle_dataComo estamos em um ambiente de vida real devemos nos preparar para os cenários mais complexos e com isso queremos dizer que como é quase certo que não obteremos as informações necessárias na primeira chamada, preparamos este método para poder obtê-las em partes, uma vez que obtemos, tudo o que fazemos é juntar os dados.
A ação do nosso programa começa quando chamamos o método alimentar () para o qual passamos o texto que é o conteúdo da página da web que obtemos com o método urlopen () e quando tudo isso tiver sido processado, procedemos à chamada do método close ().
Finalmente, com isso, alcançamos um programa de Screen Scraping mais legível do que usando expressões regulares e um pouco mais robusto no aspecto de que não nos limitamos a estruturas fixas, com isso podemos obter nossas informações corretamente.
Com isso finalizamos nosso tutorial HTMLParser, pois podemos ver que existem várias maneiras de chegar a essas soluções, a fim de obter as informações de uma página web.Gostou e ajudou este tutorial?Você pode recompensar o autor pressionando este botão para dar a ele um ponto positivo

Você vai ajudar o desenvolvimento do site, compartilhando a página com seus amigos

wave wave wave wave wave