[gull] Extraire des données depuis OpenOffice Impress

Yann Forget yann at forget-me.net
Sat Jun 19 18:10:02 CEST 2004


Bonjour,

Je cherche comment extraire le contenu de présentations OpenOffice Impress 
(250 pages x 3). Ceci pour les mettre dans un wiki. L'idéal serait du HTML. 
Du LaTeX serait aussi utile.

L'exportation de OOo en HTML produit des images JPEG. Le contenu est perdu.

Si je décompresse le fichier d'origine, j'ai un fichier XML d'un 1 Mo sur une 
seule ligne. Comment l'exploiter ?

J'ai essayé xml2 (sensé faire la conversion XML -> HTML).

$ xml2 < content.xml > content.html
$ ls -l content.html
3817299 content.html
$ head content.html
/office:document-content/@xmlns:office=http://openoffice.org/2000/office
/office:document-content/@xmlns:style=http://openoffice.org/2000/style
/office:document-content/@xmlns:text=http://openoffice.org/2000/text
/office:document-content/@xmlns:table=http://openoffice.org/2000/table
/office:document-content/@xmlns:draw=http://openoffice.org/2000/drawing
/office:document-content/@xmlns:fo=http://www.w3.org/1999/XSL/Format
/office:document-content/@xmlns:xlink=http://www.w3.org/1999/xlink
/office:document-content/@xmlns:number=http://openoffice.org/2000/datastyle
/office:document-content/@xmlns:presentation=http://openoffice.org/2000/presentation
/office:document-content/@xmlns:svg=http://www.w3.org/2000/svg

Je ne vois pas comment utiliser ça.
Et pdftohtml fait un segfault.

Pour l'instant, le mieux que j'ai réussi, c'est export en PDF, puis pdf2text.
Mais toute la structure des documents est perdue.
Une idée ?

Par avance, merci.
Yann

-- 
http://www.non-violence.org/ | Site collaboratif sur la non-violence
http://www.forget-me.net/ | Alternatives sur le Net
http://fr.wikipedia.org/ | Encyclopédie libre
http://www.forget-me.net/pro/ | Formations et services Linux



More information about the gull mailing list