extraction de données PDF - Java - Programmation
Marsh Posté le 30-03-2016 à 18:38:55
C'est extremement difficile...
L'étape 1 serait de le convertir en html pour espérer avoir quelque chose de plus facile a lire/traiter. Par exemple:
https://sourceforge.net/projects/pdftohtml/
Ensuite, suivant le PDF, il y aura énormément de reprocess a faire pour reformatter non plus par rapport au visuel (le format PDF ne s'intéresse qu'a la présentation du texte), mais par rapport a la sémantique du document (ce qu'il raconte en gros).
Cette phrase peut paraitre ambigue alors voila quelques exemples:
- un PDF avec plusieurs colonnes de texte, un système va trouver deux blocs de texte, mais ne sera pas capable de dire lequel précede lequel (si tant est qu'ils se suivent) => car c'est quelque chose que toi, tu fais visuellement, ca n'est pas enregistré dans le document...
- les textes sous forme d'images seront encore plus dur a process puisqu'il faut rajouter de l'OCR par dessus
Des exemples comme ca, le PDF peut en embarquer des miliers, ceux ci dessus sont des cas en fin de compte simple. Car imaginons un texte avec une image qui est au centre du texte (et le texte épouse cette image), il y aura énormément de zones et il sera tres dur de savoir laquelle arrive apres laquelle...
Marsh Posté le 31-03-2016 à 08:38:51
Bonjour,
Si y a uniquement du texte c'est possible ?
Les informations que je souhaite récupérer se trouve en haut à droite, en haut à gauche l'une en dessous de l'autre comme je dois extraire des informations qui se trouve dans une facture, est-ce que ça va poser un problème ?
Marsh Posté le 31-03-2016 à 09:14:37
J'utilise NetBeans mais je ne comprends pas trop ce qu'il faut que je mette ici :
Code :
|
Mon code doit commencer à quelle endroit ?
Marsh Posté le 31-03-2016 à 13:56:53
Voici le message d'erreur lorsque j'utilise itextpdf
impossible de trouver ou charger la classe principale
Marsh Posté le 01-04-2016 à 14:05:14
Oula si tu en est a ce stade, commence par faire les bases de Java au lieu de directement tenter un lecteur PDF; c'est d'un niveau très largement au dessus de ce que tu mets la...
Marsh Posté le 30-03-2016 à 15:32:37
Bonjour à tous,
Je débute en java , je souhaite extraire des informations qui se trouve dans un fichier PDF vers un fichier txt.
Est-ce réalisable avec java ou faut-il utiliser un autre langage de programmation pour y arriver ?
Je n'ai aucune piste ni la moindre idée du comment faire, pourriez-vous m'aider .
Je vous remercie d'avance pour votre aide.
Cordialement