Comparaison de PDF - Shell/Batch - Programmation
Marsh Posté le 04-05-2011 à 21:24:58
Oui, un texte qui est affiché de manière identique peut être stocké de manière différentes, je le confirme.
Par exemple, le texte peut être compressé (probablement les données binaires que vous voyez) ou pas.
Mais il peut aussi y avoir des informations annexes, telles que la date de création du fichier, son auteur, etc., qui peuvent fausser une comparaison.
En conclusion, vous pouvez comparez deux fichiers créés avec les mêmes outils et dans les mêmes circonstances, mais il est quasiment impossible de comparer deux fichiers pouvant être créés dans d'autres cas, à moins d'extraire le texte brut de chaque fichier, grâce à un outil de conversion (je n'en connais pas, mais cela existe peut-être), et ensuite de comparer ce texte brut.
Marsh Posté le 05-05-2011 à 12:55:49
Merci pour cette réponse
Les 2 PDFs sont générés par la même appli (StreamServe)
il faudrait que je regarde de plus près si la date de création, la date indiquée sur le courrier, et le numéro de version étaient bien présents en clair AVANT le grep
Marsh Posté le 06-05-2011 à 11:59:53
Bon j'ai trouvé des convertisseurs
Tous les soft de comparaison que j'ai trouvé fonctionnent sur le même modèle : convertir en texte puis comparer
Pour l'instant ce projet est en stand by pour moi, mais j'ai trouvé xpdf
http://foolabs.com/xpdf/home.html
si ça peut en intéresser d'autres...
Marsh Posté le 04-05-2011 à 10:52:42
Bonjour,
Afin de mettre en place un outil de non régression, je désirerai faire des comparaisons courriers générés en PDF
je suis sous unix et j'ai utilisé la commande cmp, en retirant du document (par un grep) la version du document, et la date d'édition. Ces 2 paramètres étant les seuls à pouvoir changer d'une édition à l'autre (sauf si le courrier réellement changé)
Sauf que dans un PDF parfois le texte est stocké en clair dans le fichier, et parfois en binaire (image ?)
du coup j'ai des différences qui ressortent.
Connaissez-vous un outil de comparaison de PDF ?
Unix voire Windows ou une solution autre (OCR sur le PDF)
Merci