Numériser et extraire des données pour les stocker

Numériser et extraire des données pour les stocker - Scanner - Hardware - Périphériques

Marsh Posté le 05-02-2010 à 12:23:26    

Bonjour,
 
Existe-t'il un logiciel permettant de scanner des documents, d'en reconnaître le type et d'extraire certaines informations ?
L'idéal serait de pouvoir les stocker dans une base de données, mais un fichier texte conviendrait.
 
Dans l'absolu mon besoin n'est vraiment de numériser les documents mais surtout d'extraire quelques informations clé dont le positionnement dépend du type de documents.
 
J'ai parcouru ce forum (un autre utilisateur a exactement le même besoin mais aucune réponse n'a été donnée) et effectué des recherches sur le net mais sans succès.
 
Je vous remercie par avance de l'attention que vous porterez à cet appel au secours et je vous souhaite une excellente journée.

Reply

Marsh Posté le 05-02-2010 à 12:23:26   

Reply

Marsh Posté le 05-02-2010 à 17:04:50    

JR69 a écrit :

Bonjour,
(un autre utilisateur a exactement le même besoin mais aucune réponse n'a été donnée) et effectué des recherches sur le net mais sans succès.


 
Bonjour JR69,
 
Vous voulez dire aucune solution n'a été trouvée peut-être?
 
Nous avons plusieurs façons de trouver l'information. Soit par un SGDBR - exemple Access, que je pratiquai autrefois - soit par l'utilisation d'un moteur de recherche (Exalead, Copernic, Qristal, voire Adobe) qui cherche des mots dans un texte.
Je ne retrouve pas le fil de l'internaute en question, mais sauf erreur il ne connaissait pas le principe d'Access et je lui conseillais une initiation - il y a des petits manuels pour cela chez tous les éditeurs informatiques, pour voir de quoi il retourne et ce qu'est une base de données. (un exemple: le carnet d'adresses)
 
Une base de données repose sur le principe de la structure. Les informations sont structurées au préalable (c'est obligatoire si l'on veut un bon résultat).
Le moteur de recherche va grapiller des informations à gauche à droite mais sans le positionnement dont vous parlez.
 
Voici votre phrase:

Citation :

d'extraire quelques informations clé dont le positionnement dépend du type de documents.


Mais qu'est-ce qui permettrait de singulariser le positionnement en question sinon un travail d'encodage réalisé d'abord par l'usager?
 
Si je balance trois mille pages de textes divers (géographie, histoire, correspondance) sans codification aucune, aucun logiciel ne déterminera seul ce que je veux trier et assembler, surtout pour une requête croisée dynamique.
Par contre je peux trier, coder des mots que je sais pertinents et surtout rapprochables si je suis doué en programmation (en fait pour refaire un moteur de recherche perso, un peu comme la fonction Editer Rechercher, etc.) mais le résultat demandera de gros efforts personnels (pour quels résultats?).
 
J'ai l'impression que vous cherchez un logiciel permettant l'utilisation structurée de renseignements non structurés.
 
Si vous n'avez rien trouvé nulle part pour l'instant, c'est que le logiciel n'existe sans doute pas?
 
Remontez le fil dans quelque temps si vous n'obtenez pas de solution d'ici là. Je serai curieux de savoir si le logiciel existe...
Bonne journée,
 
S.
 
 
 
 
 
 
 


---------------
Windows XP Home, Windows XP Pro, until...
Reply

Marsh Posté le 05-02-2010 à 17:18:32    

Bonjour sacripot et merci pour cette réponse.
 
Je n'ai pas suffisamment bien formulé le contexte et je m'en excuse : je connais la nature des documents, mettons qu'il y en a 5 ou 6, et je sais exactement où se trouvent les champs qui m'intéressent sur chacun d'eux.
 
Je souhaiterais pouvoir paramétrer le logiciel de scan pour lui dire  
- ça c'est un doc de type 1 et tu trouveras les champs à me remonter à tels endroits (coordonnées en mm ?)
- ça c'est un doc de type 2 et tu trouveras les champs à me remonter à tels endroits (coordonnées en mm ?)
- etc...
 
Une fois ce paramétrage terminé, on passe à l'utilisation courante : Au moment du scan d'un doc (forcément un doc paramétré), le logiciel en reconnait le type, sait quelles sont les zones à lire et enregistre les textes correspondants dans un fichier ou une base.

Reply

Marsh Posté le 06-02-2010 à 21:08:49    

JR69 a écrit :

Bonjour sacripot et merci pour cette réponse.
 
Je n'ai pas suffisamment bien formulé le contexte et je m'en excuse : je connais la nature des documents, mettons qu'il y en a 5 ou 6, et je sais exactement où se trouvent les champs qui m'intéressent sur chacun d'eux.
 
Je souhaiterais pouvoir paramétrer le logiciel de scan pour lui dire  
- ça c'est un doc de type 1 et tu trouveras les champs à me remonter à tels endroits (coordonnées en mm ?)
- ça c'est un doc de type 2 et tu trouveras les champs à me remonter à tels endroits (coordonnées en mm ?)
- etc...
 
Une fois ce paramétrage terminé, on passe à l'utilisation courante : Au moment du scan d'un doc (forcément un doc paramétré), le logiciel en reconnait le type, sait quelles sont les zones à lire et enregistre les textes correspondants dans un fichier ou une base.


 
Bonjour JR69,
 
Je comprends mieux maintenant votre recherche.
 
Les principaux logiciels de numérisation, il n'y en a pas beaucoup d'ailleurs, peuvent être réglés pour numériser des plages sur la feuille. Vous pouvez donc déterminer ce que le logiciel doit reconnaître après numérisation et l'enregistrer en fonction de votre "matrice". Le logiciel ne "remonte" rien, il prend en compte l'endroit de la feuille que vous voulez faire reconnaître et enregistrer.
Si vos documents ont déjà un type déterminé d'informations à la même place assignée, vous pouvez définir un cadre personnalisé pour chaque type de document et en numérisant un grand nombre de feuilles ayant le même cadre par un batch, faire faire le travail de reconnaissance et d'enregistrement assez vite.
Dire que la précision est au millimètre, là on s'avance un peu...
 
Mais c'est bien vous qui déterminez à l'avance les informations qui seront transférées sur un fichier texte au bout du compte.Le logiciel ne reconnaître rien du tout seul, vous lui dites quel est l'espace à numériser sur la feuille.
 
En aucun cas de demander au logiciel de repérer des champs (ou des "pointeurs" ) pour modifier un travail de numérisation, de reconnaissance et d'enregistrement comme vous le recherchez.
 
mais d'après votre phrase:  

Citation :

je connais la nature des documents, mettons qu'il y en a 5 ou 6, et je sais exactement où se trouvent les champs qui m'intéressent sur chacun d'eux

le travail du logiciel s'applique déjà, cela correspond à ce que j'ai écris plus haut.
Vous préparez cinq ou six "modèles" de reconnaissance dans le menu personnalisé et lancez le scanner en fonction de vos feuilles déjà triées par vous.
Mais encore une fois, avoir une précision de quelques millimètres sera plus délicat... autrement dit le fait de poser la feuille sur la vitre peut avoir des résultats erronés.
 
Bonne soirée!
 
Sacripot (pas spécialiste non plus, ni programmeur, ni informaticien)
 
 
 


---------------
Windows XP Home, Windows XP Pro, until...
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed