Probleme avec pdftotext => Transformation de .ps vers .pdf foireuse ? - Codes et scripts - Linux et OS Alternatifs
Marsh Posté le 05-07-2005 à 12:44:42
pstotext cette commande peut permettre d'afficher le resultat en live dans ta console
Marsh Posté le 05-07-2005 à 13:43:26
J'ai pas tout compris à ta phrase là ?
La commande pstotext n'existe pas (ou alors pas sur ma distrib), mais plutot ps2ascii. Et cette commande travaille sur un fichier ps et non pas pdf
EDIT : bon t'as édité ta phrase qui devient beaucoup plus claire
Marsh Posté le 05-07-2005 à 15:12:26
a tiens !
ba chez moi j'utilise la cmd pstotext ( apt-get install pstotext ) pour decoder du pdf en text dans la console ...
apres si ca peut t'aider je ne sais pas ....
Marsh Posté le 05-07-2005 à 15:43:15
Ha bin ça fait pareil (voir pire): non seulement le résultat est illisible mais ma console part en sucette
N␊├F␋B⎺│⎺└␊/⎻⎼␋┼├└▒┼/⎻␍°# ┴┐┌⎽┴┐┌─⎽┐─⎽┘␍┴┘┐─⎽␍°┐┌┘─ ⎽␍┐°┌─⎽┤≤ °┐┌─⎽┤°┐┌─⎽┘␍° ─┘┐⎽
␉▒⎽: ┴┐┌⎽┴┐┌─⎽┐─⎽┘␍┴┘┐─⎽␍°┐┌┘─: ␌⎺└└▒┼␍ ┼⎺├ °⎺┤┼␍
N␊├F␋B⎺│⎺└␊/⎻⎼␋┼├└▒┼/⎻␍°#
Marsh Posté le 05-07-2005 à 17:29:23
oulaaa j'ai jamais eut ca !!! meme avec des pdf enorme avec photos ect ... !!! désoler
Marsh Posté le 05-07-2005 à 18:03:18
petoulachi a écrit : Ha bin ça fait pareil (voir pire): non seulement le résultat est illisible mais ma console part en sucette |
juste pour rire, change de console... des fois ca resous des petites choses...
Marsh Posté le 05-07-2005 à 18:21:33
Changer de console ?
Sinon j'avance sur mon enquete
Donc : mon pdf est issu d'un fichier ps, converti en pdf avec la commande ps2pdf.
Visiblement le soucis est là, car avec un fichier pdf existant (un fichier de doc), pdftotext fonctionne à merveille !
Il semblerait qu'il y ai un soucis avec la commande ps2pdf. Le fichier pdf crée est bien lisible avec un viewver pdf, mais il devient impossible d'en extraire le texte !
Un exemple de fichier pdf généré par ps2pdf est visible ici :
http://petoulachi.coldwire.net/datas/test.pdf
ps2pdf se servant au final de gs, en appelant la commande
gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite
peut etre est-ce ma version du pdfwriter qui a un soucis
Marsh Posté le 05-07-2005 à 18:46:21
d'une console type gnome terminal ou kterm a eterm ou mrxvt il y un gouffre
Marsh Posté le 06-07-2005 à 09:44:21
Oui enfin là apparemment c'est plutot la transformation ps -> pdf qui ne fonctionne pas vraiment !
Marsh Posté le 05-07-2005 à 12:22:39
Bonjour à tous,
Je dois réaliser un petit script qui scanne un répertoire, et qui pour chaque fichier pdf extrait le texte dans un nouveau fichier. Avant meme de commencer le script, je m'essaie donc à la commande pdftotext (Debian sarge 3.1, pdf en version 1.2 et pdftotext v3.0).
Et deja premier soucis, ça ne marche pas vraiment. A la place, je me retrouve avec un fichier dont le contenu ne ressmble pas à grand chose. J'ai essayer de préciser divers encoding (Latin1, UTF-8, ASCII7) mais sans succès, c'est toujours le meme résultat
Le man ne m'apprends pas grand chose de plus quant à ce problème.
Une aide serait la bienvenue
EDIT : J'avance sur mon enquete
Donc : mon pdf est issu d'un fichier ps, converti en pdf avec la commande ps2pdf.
Visiblement le soucis est là, car avec un fichier pdf existant (un fichier de doc), pdftotext fonctionne à merveille !
Il semblerait qu'il y ai un soucis avec la commande ps2pdf. Le fichier pdf crée est bien lisible avec un viewver pdf, mais il devient impossible d'en extraire le texte !
Un exemple de fichier pdf généré par ps2pdf est visible ici :
http://petoulachi.coldwire.net/datas/test.pdf
ps2pdf se servant au final de gs, en appelant la commande
gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite
peut etre est-ce ma version du pdfwriter qui a un soucis
Message édité par petoulachi le 06-07-2005 à 12:32:22