[gull] pdf to spdf (Searchable PDF)

Sun Feb 2 23:15:43 CET 2014

Hello,

2014-02-02 Cédric BRINER <briner at infomaniak.ch>:
> Salut,
>
> Je souhaite trouver une solution me permettant de faire une reconnaissance
> de caractère sur des documents PDF issue d'une numérisation.
>
> Mon but ultime étant de pouvoir me débarrasser de mes dossiers suspendus et
> de passer à une situation entièrement numérique.
>
> J'ai fait une partie de mes devoirs en regardant ce qu'il y avait sur le
> net. J'ai trouvé:
> [...]
> scan-archive.sh: http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/
> ce petit script paraît pas mal du tout. Le seul hic, c'est qu'il fonctionne
> seulement avec un pdf issue d'une numérisation d'une seule page. Mais au vu de la taille du script 26 ligne, je me dis que ça ne devrait pas être super compliqué à modifier.

Vite fait (mal fait), il suffirait de lancer ce script sur tous les
fichiers résultants d'un pdftk mon_doc.pdf burst; et de finir par un
pdftk *.pdf cat output mon_sdoc.pdf pour les remettre ensemble.

> Mais je n'ai toujours pas trouvé une solution qui tourne bien.
>
> Est-ce que l'un de vous dans sa grande générosité aurait un lien, un script,
> un truc qui fonctionne et qui soit éprouvé.

Si le but est de gérer de la paperasse, il y a Paperwork qui scanne et
effectue une reconnaissance de charactères sur les documents numérisés
:
https://github.com/jflesch/paperwork#readme

Il permet d'importer des PDFs existants, mais je ne crois pas qu'il
génère de fichiers SPDF directement à partir de ces derniers. L'idée
est plus de pouvoir directement effectuer des recherches dans un
ensemble de fichiers indexés.

Bonne chance,
Thibault