[gull] pdf to spdf (Searchable PDF)

Sun Feb 2 22:47:45 CET 2014

Salut,

Je souhaite trouver une solution me permettant de faire une 
reconnaissance de caractère sur des documents PDF issue d'une numérisation.

Mon but ultime étant de pouvoir me débarrasser de mes dossiers suspendus 
et de passer à une situation entièrement numérique.

J'ai fait une partie de mes devoirs en regardant ce qu'il y avait sur le 
net. J'ai trouvé:

ocrfeeder: qui marche plus ou moins mais dont la reconnaissance de 
caractères est un peu foireuse pour ce qui est du placement du calque 
ocr sur la partie numérisée.

scan-archive.sh: http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/
ce petit script paraît pas mal du tout. Le seul hic, c'est qu'il 
fonctionne seulement avec un pdf issue d'une numérisation d'une seule 
page. Mais au vu de la taille du script 26 ligne, je me dis que ça ne 
devrait pas être super compliqué à modifier.

Mais je n'ai toujours pas trouvé une solution qui tourne bien.

Est-ce que l'un de vous dans sa grande générosité aurait un lien, un 
script, un truc qui fonctionne et qui soit éprouvé.

D'avance merci pour votre aide.

cED