OCRmyPDF ou créer des PDF/A avec OCR embarqué

OCRmyPDF ou créer des PDF/A avec OCR embarqué - Logiciels - Linux et OS Alternatifs

Marsh Posté le 11-11-2013 à 14:06:56    

Je trouve ce script fort utile.
 
Il permet de créer des fichiers PDF adressables embarquant l'OCR:
https://github.com/fritz-hh/OCRmyPDF/
 
Il faut un certain nombre de dépendances dont exactimage, tesseract... Mais le script vous le rappelle. C'est pratique.
La version 2 permet de faire le travail en parallèle.
 
Un simple:

./OCRmyPDF.sh -l fra -d -c -i -vv input.pdf out.pdf


 
recale les pages du document (-d) en français (-l fra) et nettoie les bordures (-c) pour inclure ou non (-i) les bitmaps redressés et nettoyés dans le PDF adressable.
 
Pour des documents vraiment moches, je commence avec scantailor.
 
Bref, le libre comme je l'aime.


Message édité par Sagittarius le 11-11-2013 à 14:21:31
Reply

Marsh Posté le 11-11-2013 à 14:06:56   

Reply

Marsh Posté le 11-12-2013 à 13:31:11    

toutafé !
 
je suis en train de tâtonner pour combiner ça avec xapian et omega (https://goldy.furry.fr/article4/indexer-ses-documents-personnels-avec-xapian-et-omega)
Mais pas là tout de suite car ma machine n'a pas appréciée ma tentative de passage d'olivia à petra (Mint)
 
As tu une idée pour faire un traitement de masse (traiter tout les fichiers d'un répertoire plus ou moins régulièrement avec un cron par exemple)
genre : /OCRmyPDF.sh -vv *.pdf *.pdf  (ça à l'air bien sale mais bon)

Code :
  1. for n in ~/Documents/*.pdf ; do  
  2. /opt/OCRmyPDF/OCRmyPDF.sh -vv  -f "$n" /scan/"$(basename "$n" )"; done
  3. #optionnel faire le ménage dan le répertoire
  4. #for i in  ~/Documents/*.pdf ; do
  5. #mv $i /scanpdfold/;
  6. #done


 
un petit coup de recoll et ça roule  
prochain arrêt xapian et oméga
Cdlt  
AD


Message édité par firehard le 19-01-2014 à 22:21:03
Reply

Marsh Posté le 12-12-2013 à 00:04:34    

J'ai dans l'idée de me faire un serveur webdavs/ftp qui intègre automatiquement ainsi dès son dépôt l'OCR embarqué dans les PDF. Je ferais un tri, par exemple sur le nom de fichier.
Cela serait utile dans mon travail. Pour l'heure cela reste au stade d'une idée faute de temps.
 
Je regarde aussi du côté des gestions intégrées de documents (libres) si l'embarquement OCR dans les PDF est à l'ordre du jour.

Reply

Marsh Posté le 29-12-2016 à 08:14:22    

v4.3.4 ici https://github.com/jbarlow83/OCRmyPDF
Toujours aussi pratique avec un service menu.

Reply

Marsh Posté le 20-01-2017 à 14:13:11    

e regarde aussi du côté des gestions intégrées de documents (libres) si l'embarquement OCR dans les PDF est à l'ordre du jour. http://www.okhealthy.com/youjie/images/41.gif

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed