[gull] pdf to spdf (Searchable PDF)
felix
felix at f-hauri.ch
Tue Feb 4 08:42:14 CET 2014
On Mon, Feb 03, 2014 at 10:53:03PM +0100, Cédric BRINER wrote:
> Bon le truc cool avec ocrpdf, c'est qu'on peut spécifier le moteur
> cuneiform. Mais c'est pas encore ça.
As-tu précisé l'option `` -l fra '' à cuneiform?
L'étape suivante serait de jouer avec ASpell et un **bon** dico personnel.
Le script serait relativement simple (pas fini! il faut encore crée un dossier
temporaire pour y stoquer les pages en sortie de aspell, avec les bons arguments,
avant de lancer: `pdftk $file attach_files...`)
Si tu répond à mes question et n'est pas trop pressé, je veux bien le faire ici...
Première question: comment sont attachés les textes dans un ``.spdf'' ??
Ou alors fait-moi parvenir un ou deux fichiers à titre d'exemples!
En gros, pour commencer:
#!/bin/bash
file="$1"
[ "$1" ] && [ -f "$1" ] || exit
pages=0
while read -a line ;do
[ "${line%:}" = "NumberOfPages" ] && pages=${line[1]}
done < <(pdftk $file dump_data_utf8)
[ $pages -gt 0 ] || exit 1
for ((page=0;page<pages;page++));do
gs -sDEVICE=pnmraw -r600 -q -dBATCH -dSAFER -dNOPAUSE -sOutputFile=- \
-dFirstPage=$((1+page)) -dLastPage=$((1+page)) "$file" -c quit |
cuneiform -o /dev/stdout -l fra -f html - |
aspell...
done
--
Félix Hauri - <felix at f-hauri.ch> - http://www.f-hauri.ch
More information about the gull
mailing list