Índice
O Screen Scraping ou screen scraping, nos permite extrair informações de uma página da web baixando essa página e subsequentemente processando-a com um programa; Isso é muito útil, especialmente quando precisamos de informações atualizadas de um site que não possui API disponível ou algum Serviço de internet.Para realizar um Screen Scraping, basta fazer o download do conteúdo e ser capaz de manipulá-lo para que possamos extrair o que nos interessa, para isso podemos usar várias técnicas como o uso de expressões regulares ou talvez ajudar-nos com outras bibliotecas como Arrumado.
O que é o Tidy?
Ser capaz de ler um HTML Devemos confiar na sua estrutura, isto porque como não sabemos exatamente que conteúdo ela possui, pelo menos sabemos que se buscarmos estruturas HTML algo que podemos obter, no entanto, nem sempre o HTML está bem formado, seja por erro de omissão, seja porque o programador sabe que alguns navegadores tendem a interpretar HTML mesmo que haja algumas falhas.
Neste ponto entra em jogo Arrumado, que nada mais é do que uma ferramenta que nos permite reparar HTML malformado, é altamente configurável e permite customizar a forma como deve interpretar as correções que pode fazer, assim saberemos com certeza que tipo de documento resultará no fim.
Vamos primeiro ver a imagem de um código HTML Com muitos erros, este código pode ser interpretado por alguns navegadores, porém não é um código correto em sua formação:
Então usamos Arrumado e vamos ver o código já corrigido, aí perceberemos a importância dessa biblioteca e toda a ajuda que ela pode nos dar:
Arrume-se
Existem várias maneiras de obter o Tidy por meio de sua página oficial http: / /tidy.sf.net. podemos obter a biblioteca, no entanto, não há como essa fonte integrá-la com Pitão portanto, devemos recorrer a uma fonte alternativa, para isso temos duas opções: arrumado disponível em http: / /utidylib.berlios.de e mxTidy disponível em http: / /egenix.com/files/python/mxTidy.html, uTidy parece ser o mais atualizado dos dois, mas mxTidy é um pouco mais fácil de instalar, cabe a todos ver qual usar.
Vamos ver um exemplo de como usar Arrumado Depois de instalado, no código a seguir o que faremos é abrir um HTML com erros e ler usando o Tidy, a seguir mostraremos as informações na tela.
do subprocesso import Popen, PIPE text = open ('messy.html'). read () tidy = Popen ('tidy', stdin = PIPE, stdout = PIPE, stderr = PIPE) tidy.stdin.write (text) tidy. stdin.close () print tidy.stdout.read ()
Como podemos ver, é bastante simples de usar ArrumadoAssim que tivermos confiança suficiente conhecendo bem o comportamento da biblioteca, podemos alcançar coisas muito interessantes.Gostou e ajudou este tutorial?Você pode recompensar o autor pressionando este botão para dar a ele um ponto positivo