[gull] Python & HTLMParser module

cedric briner briner at infomaniak.ch
Thu Jan 31 14:56:20 CET 2008


> Message destine aux Pythoniens :
oups desole daniel si tu recois ce message  a double.

va voir sur python beautifull soup:
http://www.crummy.com/software/BeautifulSoup/
> 
> En voulant automatiser un acces web, j'ai utilise le module HTMLParser de 
> Python pour extraire ce que je veux de la page html. Or, ce module s'ecrase 
> lamentablement en rencontrant le pattern suivant :
> 
> "....<script language=javascript>
> if(window.yzq_p==null)document.write("<scr"+"ipt language=javascript 
> src=http://l.yimg.com/us.js.yimg.com/lib/bc/bc_2.0.4.js></scr"+"ipt>");..."
> 
> En fait, c'est la reconnaissance d'un end-tag qui pointe sur : </scr"+"ipt> !
> 
> La raison est liee a l'utilisation de RE pour parser de l'HTML (une aberration 
> a mes yeux; mais enfin...). Ceci engendre naturellement plein de problemes, 
> et tout modification d'une des regles rend les choses encore plus fragiles.
> 
> Quelqu'un connait-il un module Python plus robuste que celui-ci ? J'ai 
> redefini la methode parse_endtag() de la classe HTMLParser pour contourner ce 
> probleme, mais je ne trouve pas cela tres elegant... Quelqu'un a-t-il deja 
> rencontre ce genre de chose ? La page web incriminee est :
> 
> 	http://finance.yhaoo.com
> 
> dc
> 
> _______________________________________________
> gull mailing list
> gull at lists.alphanet.ch
> http://lists.alphanet.ch/mailman/listinfo/gull
> 


-- 

Cedric BRINER
23 ch. Salomon-PENAY  | mel  mailto:briner at infomaniak.ch
CH-1217 Meyrin        | voip callto:41325106739 at sipcall.ch
                       |
                       | tel::maison:  +41(0)32/510-6739
                       | tel::portable +41(0)78/665-9701
                       | tel::travail  +41(0)22/379-2356



More information about the gull mailing list