[gull] pdf to spdf (Searchable PDF)

felix felix at f-hauri.ch
Tue Feb 4 08:42:14 CET 2014


On Mon, Feb 03, 2014 at 10:53:03PM +0100, Cédric BRINER wrote:
> Bon le truc cool avec ocrpdf, c'est qu'on peut spécifier le moteur
> cuneiform. Mais c'est pas encore ça.

As-tu précisé l'option `` -l fra '' à cuneiform?

L'étape suivante serait de jouer avec ASpell et un **bon** dico personnel.

Le script serait relativement simple (pas fini! il faut encore crée un dossier
temporaire pour y stoquer les pages en sortie de aspell, avec les bons arguments,
avant de lancer: `pdftk $file attach_files...`)

Si tu répond à mes question et n'est pas trop pressé, je veux bien le faire ici...

Première question: comment sont attachés les textes dans un ``.spdf'' ??
Ou alors fait-moi parvenir un ou deux fichiers à titre d'exemples!

En gros, pour commencer:

 #!/bin/bash

 file="$1"

 [ "$1" ] && [ -f "$1" ] || exit

 pages=0
 while read -a line ;do
     [ "${line%:}" = "NumberOfPages" ] && pages=${line[1]}
   done < <(pdftk $file dump_data_utf8)
 [ $pages -gt 0 ] || exit 1

 for ((page=0;page<pages;page++));do
   gs -sDEVICE=pnmraw -r600 -q -dBATCH -dSAFER -dNOPAUSE -sOutputFile=- \
     -dFirstPage=$((1+page)) -dLastPage=$((1+page)) "$file" -c quit |
   cuneiform -o /dev/stdout -l fra -f html - |
   aspell...
 done


--
 Félix Hauri  -  <felix at f-hauri.ch>  -  http://www.f-hauri.ch


More information about the gull mailing list