[gull] pdf to spdf (Searchable PDF)

Cédric BRINER briner at infomaniak.ch
Mon Feb 3 20:42:19 CET 2014



Le 02. 02. 14 23:15, Thibault North a écrit :
> Hello,
>
> 2014-02-02 Cédric BRINER <briner at infomaniak.ch>:
>> Salut,
>>
>> Je souhaite trouver une solution me permettant de faire une reconnaissance
>> de caractère sur des documents PDF issue d'une numérisation.
>>
>> Mon but ultime étant de pouvoir me débarrasser de mes dossiers suspendus et
>> de passer à une situation entièrement numérique.
>>
>> J'ai fait une partie de mes devoirs en regardant ce qu'il y avait sur le
>> net. J'ai trouvé:
>> [...]
>> scan-archive.sh: http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/
>> ce petit script paraît pas mal du tout. Le seul hic, c'est qu'il fonctionne
>> seulement avec un pdf issue d'une numérisation d'une seule page. Mais au vu de la taille du script 26 ligne, je me dis que ça ne devrait pas être super compliqué à modifier.
>
> Vite fait (mal fait), il suffirait de lancer ce script sur tous les
> fichiers résultants d'un pdftk mon_doc.pdf burst; et de finir par un
> pdftk *.pdf cat output mon_sdoc.pdf pour les remettre ensemble.
Tout à fait. Avant de me lancer dans un truc pareil, je voulais savoir 
si l'un de vous avait une meilleure solution.

Je vois que ça n'a pas l'air florissant. :/

>> Mais je n'ai toujours pas trouvé une solution qui tourne bien.
>>
>> Est-ce que l'un de vous dans sa grande générosité aurait un lien, un script,
>> un truc qui fonctionne et qui soit éprouvé.
>
> Si le but est de gérer de la paperasse, il y a Paperwork qui scanne et
> effectue une reconnaissance de charactères sur les documents numérisés
> :
> https://github.com/jflesch/paperwork#readme
>
> Il permet d'importer des PDFs existants, mais je ne crois pas qu'il
> génère de fichiers SPDF directement à partir de ces derniers. L'idée
> est plus de pouvoir directement effectuer des recherches dans un
> ensemble de fichiers indexés.
Oui, c'est justement à cause de paperwork que je me suis dis que 
j'allais dématérialisé ma paperasse. Et je comptais sûr gnome pour qu'il 
me fasse une recherche dans mes documents. D'où mon autre courrier 
intitulé: searchable pdf & gnome

Bon, dès que j'aurais une solution qui tourne, je vous le ferai savoir.

En attendant, si vous croisez sur votre route un truc dans le genre, je 
suis preneur !

> Bonne chance,
> Thibault
cED


More information about the gull mailing list