[gull] Python & HTLMParser module
cedric briner
briner at infomaniak.ch
Thu Jan 31 14:56:20 CET 2008
> Message destine aux Pythoniens :
oups desole daniel si tu recois ce message a double.
va voir sur python beautifull soup:
http://www.crummy.com/software/BeautifulSoup/
>
> En voulant automatiser un acces web, j'ai utilise le module HTMLParser de
> Python pour extraire ce que je veux de la page html. Or, ce module s'ecrase
> lamentablement en rencontrant le pattern suivant :
>
> "....<script language=javascript>
> if(window.yzq_p==null)document.write("<scr"+"ipt language=javascript
> src=http://l.yimg.com/us.js.yimg.com/lib/bc/bc_2.0.4.js></scr"+"ipt>");..."
>
> En fait, c'est la reconnaissance d'un end-tag qui pointe sur : </scr"+"ipt> !
>
> La raison est liee a l'utilisation de RE pour parser de l'HTML (une aberration
> a mes yeux; mais enfin...). Ceci engendre naturellement plein de problemes,
> et tout modification d'une des regles rend les choses encore plus fragiles.
>
> Quelqu'un connait-il un module Python plus robuste que celui-ci ? J'ai
> redefini la methode parse_endtag() de la classe HTMLParser pour contourner ce
> probleme, mais je ne trouve pas cela tres elegant... Quelqu'un a-t-il deja
> rencontre ce genre de chose ? La page web incriminee est :
>
> http://finance.yhaoo.com
>
> dc
>
> _______________________________________________
> gull mailing list
> gull at lists.alphanet.ch
> http://lists.alphanet.ch/mailman/listinfo/gull
>
--
Cedric BRINER
23 ch. Salomon-PENAY | mel mailto:briner at infomaniak.ch
CH-1217 Meyrin | voip callto:41325106739 at sipcall.ch
|
| tel::maison: +41(0)32/510-6739
| tel::portable +41(0)78/665-9701
| tel::travail +41(0)22/379-2356
More information about the gull
mailing list