extraction de données PDF

extraction de données PDF - Java - Programmation

Marsh Posté le 30-03-2016 à 15:32:37    

Bonjour à tous,
 
Je débute en java , je souhaite extraire des informations qui se trouve dans un fichier PDF vers un fichier txt.
Est-ce réalisable avec java ou faut-il utiliser un autre langage de programmation pour y arriver ?
Je n'ai aucune piste ni la moindre idée du comment faire, pourriez-vous m'aider .
 
 
Je vous remercie d'avance pour votre aide.
Cordialement

Reply

Marsh Posté le 30-03-2016 à 15:32:37   

Reply

Marsh Posté le 30-03-2016 à 18:38:55    

C'est extremement difficile...
 
L'étape 1 serait de le convertir en html pour espérer avoir quelque chose de plus facile a lire/traiter. Par exemple:
https://sourceforge.net/projects/pdftohtml/
 
Ensuite, suivant le PDF, il y aura énormément de reprocess a faire pour reformatter non plus par rapport au visuel (le format PDF ne s'intéresse qu'a la présentation du texte), mais par rapport a la sémantique du document (ce qu'il raconte en gros).
 
Cette phrase peut paraitre ambigue alors voila quelques exemples:
- un PDF avec plusieurs colonnes de texte, un système va trouver deux blocs de texte, mais ne sera pas capable de dire lequel précede lequel (si tant est qu'ils se suivent) => car c'est quelque chose que toi, tu fais visuellement, ca n'est pas enregistré dans le document...
- les textes sous forme d'images seront encore plus dur a process puisqu'il faut rajouter de l'OCR par dessus
 
Des exemples comme ca, le PDF peut en embarquer des miliers, ceux ci dessus sont des cas en fin de compte simple. Car imaginons un texte avec une image qui est au centre du texte (et le texte épouse cette image), il y aura énormément de zones et il sera tres dur de savoir laquelle arrive apres laquelle...

Reply

Marsh Posté le 31-03-2016 à 08:38:51    

Bonjour,
 
Si y a uniquement du texte c'est possible ?
Les informations que je souhaite récupérer se trouve en haut à droite, en haut à gauche l'une en dessous de l'autre comme je dois extraire des informations qui se trouve dans une facture, est-ce que ça va poser un problème ?

Reply

Marsh Posté le 31-03-2016 à 09:14:37    

J'utilise NetBeans mais je ne comprends pas trop ce qu'il faut que je mette ici :

Code :
  1. package conversion_pdf;
  2. public class Conversion_PDF {
  3. public static void main(String[] args) {


 
Mon code doit commencer à quelle endroit ?

Reply

Marsh Posté le 31-03-2016 à 13:56:53    

Voici le message d'erreur lorsque j'utilise itextpdf
impossible de trouver ou charger la classe principale

Reply

Marsh Posté le 01-04-2016 à 14:05:14    

Oula si tu en est a ce stade, commence par faire les bases de Java au lieu de directement tenter un lecteur PDF; c'est d'un niveau très largement au dessus de ce que tu mets la...

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed