[gull] Extraire des données depuis OpenOffice Impress
Yann Forget
yann at forget-me.net
Sat Jun 19 18:10:02 CEST 2004
Bonjour,
Je cherche comment extraire le contenu de présentations OpenOffice Impress
(250 pages x 3). Ceci pour les mettre dans un wiki. L'idéal serait du HTML.
Du LaTeX serait aussi utile.
L'exportation de OOo en HTML produit des images JPEG. Le contenu est perdu.
Si je décompresse le fichier d'origine, j'ai un fichier XML d'un 1 Mo sur une
seule ligne. Comment l'exploiter ?
J'ai essayé xml2 (sensé faire la conversion XML -> HTML).
$ xml2 < content.xml > content.html
$ ls -l content.html
3817299 content.html
$ head content.html
/office:document-content/@xmlns:office=http://openoffice.org/2000/office
/office:document-content/@xmlns:style=http://openoffice.org/2000/style
/office:document-content/@xmlns:text=http://openoffice.org/2000/text
/office:document-content/@xmlns:table=http://openoffice.org/2000/table
/office:document-content/@xmlns:draw=http://openoffice.org/2000/drawing
/office:document-content/@xmlns:fo=http://www.w3.org/1999/XSL/Format
/office:document-content/@xmlns:xlink=http://www.w3.org/1999/xlink
/office:document-content/@xmlns:number=http://openoffice.org/2000/datastyle
/office:document-content/@xmlns:presentation=http://openoffice.org/2000/presentation
/office:document-content/@xmlns:svg=http://www.w3.org/2000/svg
Je ne vois pas comment utiliser ça.
Et pdftohtml fait un segfault.
Pour l'instant, le mieux que j'ai réussi, c'est export en PDF, puis pdf2text.
Mais toute la structure des documents est perdue.
Une idée ?
Par avance, merci.
Yann
--
http://www.non-violence.org/ | Site collaboratif sur la non-violence
http://www.forget-me.net/ | Alternatives sur le Net
http://fr.wikipedia.org/ | Encyclopédie libre
http://www.forget-me.net/pro/ | Formations et services Linux
More information about the gull
mailing list