Convertir fichier PDF en fichier txt

Marsh Posté le 11-03-2016 à 14:18:37

Bonjour à tous,

Je souhaite convertir certains fichiers PDf au format txt.
Je pense à utiliser le module PDF::API2
mais je ne vois pas comment rédiger mon programme
je possède une boucle GetFilesList pour me lister tous les PDF et je vais en faire une seconde pour lister tout les fichiers txt.
Je pense m'appuyer sur un fichier d'initialisation qui contiendra les arborescences des différents fichiers PDF étant donné que je ne souhaite pas que l'on voit l'arborescence dans le programme.

Le contenu du fichier d'initialisation sera de la forme :
[fichier_pdf]
FACTURE_PDF=C:\facture_pdf\
BULLETIN_PAIE_PDF=C:\bulletin_paie_pdf\
ORDONNANCE_PDF=C:\ordonnance_pdf\

Dans le répertoire facture_pdf il y aura :
facture.pdf
facture1.pdf
facture2.pdf
etc...

Dans le répertoire bulletin_paie_pdf il y aura :
paie.pdf
paie1.pdf
paie2.pdf
etc ...

Dans le répertoire ordonnance_pdf il y aura :
ordonnance.pdf
ordonnance1.pdf
ordonnance2.pdf
etc ...

Le résultat que je souhaite obtenir est le suivant :
Dans le répertoire facture_pdf il y aura :
facture.pdf
facture1.pdf
facture2.pdf
et
facture.txt
facture1.txt
facture2.txt

Dans le répertoire bulletin_paie_pdf il y aura :
paie.pdf
paie1.pdf
paie2.pdf
et
paie.txt
paie1.txt
paie2.txt

Dans le répertoire ordonnance_pdf il y aura :
ordonnance.pdf
ordonnance1.pdf
ordonnance2.pdf
et
ordonnance.txt
ordonnance1.txt
ordonnance2.txt

Est-ce compréhensible ?

Je vous remercie d'avance pour votre aide.

Cordialement

Message édité par solerian le 11-03-2016 à 16:20:41

Reply

Marsh Posté le 11-03-2016 à 14:18:37

Reply

Marsh Posté le 11-03-2016 à 15:59:10

Ordonnance prend 2 "n"

---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta

Reply

Marsh Posté le 11-03-2016 à 16:21:03

Cela te convient mieux ?

Message cité 1 fois

Reply

Marsh Posté le 11-03-2016 à 16:32:40

A vrai dire je suis un peu étonné ou disons perdu. Hier (ou presque) tu demandais comment convertir au format pdf depuis un fichier texte, maintenant tu veux faire l'inverse? :??: Si c'est pour éditer des pdfs il doit y avoir plus propre/simple je pense (à confirmer).

Reply

Marsh Posté le 11-03-2016 à 16:35:50

C'est parce que je souhaite modifier des PDF sans utiliser de logiciel et pour l'autre discussion je souhaite convertir des fichier lst pour ne plus pouvoir les modifier sans utiliser un logiciel tels que PDF Creator.

Message cité 1 fois

Reply

Marsh Posté le 11-03-2016 à 16:44:00

Pour modifier des PDF il y a des outils qui permettent de le faire directement, en passant par des fichiers .txt tu risques de perdre des infos (mise en page notamment). http://search.cpan.org/~cdolan/CAM [...] CAM/PDF.pm http://search.cpan.org/~ssimms/PDF [...] DF/API2.pm D'ailleurs le deuxième tu en parlais déjà dans l'autre sujet.

Reply

Marsh Posté le 11-03-2016 à 16:50:24

solerian a écrit :

Cela te convient mieux ?

Oui :jap:

---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta

Reply

Marsh Posté le 11-03-2016 à 18:10:15

solerian a écrit :

C'est parce que je souhaite modifier des PDF sans utiliser de logiciel et pour l'autre discussion je souhaite convertir des fichier lst pour ne plus pouvoir les modifier sans utiliser un logiciel tels que PDF Creator.

Si c'est juste pour ajouter ou retirer des pages à un document existant, c'est assez facile. Si c'est pour modifier le contenu d'une page déjà existante en PDF, ben je te souhaite bien du plaisir.

A+,

---------------
There's more than what can be linked! -- Le capitaine qui ne veut pas obéir à la carte finira par obéir aux récifs. -- Il ne faut plus dire Sarkozy, mais Sarkozon -- (╯°□°)╯︵ ┻━┻

Reply

Marsh Posté le 14-03-2016 à 09:56:31

C'est juste pour ajouter ou retirer des pages

Reply

Marsh Posté le 14-03-2016 à 11:55:43

Pour retirer des pages:

Code :

#!/usr/bin/perl -w
 
use strict;
use warnings;
use CAM::PDF;
 
my $infile = "input.pdf";
my $outfile = "output.pdf";
my $pagenums = ""; # par exemple "2, 8-10, 25, 26-"
 
# ouverture du fichier en entrée ou échec
my $doc = CAM::PDF->new($infile) || die "$CAM::PDF::errstr\n";
 
# On supprime les pages listées ou échec
die "Failed to delete a page\n" unless($doc->deletePages($pagenums));
 
# peut être inutile, à tester
$doc->preserveOrder();
 
# échec si document pas modifiable
die "This PDF forbids modification\n" unless ($doc->canModify());
 
# Et on sauvegarde le résultat
$doc->cleanoutput($outfile);

Pour ajouter un fichier à la suite d'un autre:

Code :

#!/usr/bin/perl -w
 
use strict;
use warnings;
use CAM::PDF;
 
my $infile1 = "input1.pdf";
my $infile2 = "input2.pdf";
my $outfile = "output.pdf";
 
# ouverture du premier fichier en entrée
my $doc = CAM::PDF->new($infile1) || die "$CAM::PDF::errstr\n";
 
# ajout du second à la fin
$doc->appendPDF($infile2);
 
# peut être inutile, à tester
$doc->clearAnnotations();
$doc->preserveOrder();
 
# échec si document pas modifiable
die "This PDF forbids modification\n" unless ($doc->canModify());
 
# Et on sauvegarde le résultat
$doc->cleanoutput($outfile);

A toi d'adapter selon tes besoins. Ou d'aller voir la doc de CAM::PDF pour une utilisation plus fine.

A+,

---------------
There's more than what can be linked! -- Le capitaine qui ne veut pas obéir à la carte finira par obéir aux récifs. -- Il ne faut plus dire Sarkozy, mais Sarkozon -- (╯°□°)╯︵ ┻━┻

Reply

Marsh Posté le 14-03-2016 à 11:55:43

Reply

Marsh Posté le 14-03-2016 à 17:10:41

J'utilise toujours un fichier d'initialisation que voici :
[repertoire]
REP_FACTURE=C:\Users\baranowp\Documents\2016_01_07_08\facture\
REP_BULLETIN=C:\Users\baranowp\Documents\2016_02_04_05\bulletin_paie\

[fichier_facture]
FIC_1=C:\Users\baranowp\Documents\2016_01_07_08\facture\facture1.pdf
FIC_2=C:\Users\baranowp\Documents\2016_01_07_08\facture\facture2.pdf
FIC_3=C:\Users\baranowp\Documents\2016_01_07_08\facture\facture3.pdf

[fichier_paie]
FIC_4=C:\Users\baranowp\Documents\2016_02_04_05\bulletin_paie\paie1.pdf
FIC_5=C:\Users\baranowp\Documents\2016_02_04_05\bulletin_paie\paie2.pdf

Code :

use strict;
use warnings;
use CAM::PDF;
use Config::IniFiles;
my $pdf = CAM::PDF->new();
my @repertoire;
my @fichier_facture;
my @fichier_paie;
my $cfg = Config::IniFiles->new( -file => $ARGV[0] );
foreach ('REP_PROD') {
push @repertoire, $cfg->val('repertoire', $_);
}
foreach ('FIC_1','FIC_2') {
push @fichier_facture, $cfg->val('fichier_facture', $_) if $cfg->val('fichier_facture', $_);
}
foreach ('FIC_4','FIC_5') {
push @fichier_paie, $cfg->val('fichier_paie', $_) if $cfg->val('fichier_paie', $_);
}
my $infile = $fichier_facture[0];
my $outfile = $fichier_facture[1];
my $pagenums = "";
my $doc = CAM::PDF->new($infile) || die "$CAM::PDF::errstr\n";
$doc->appendPDF($infile);
# peut être inutile, à tester
$doc->clearAnnotations();
$doc->preserveOrder();
# échec si document pas modifiable
die "This PDF forbids modification\n" unless ($doc->canModify());
# Et on sauvegarde le résultat
$doc->cleanoutput($outfile);
sub GetFilesList
{
my $Path = $_[0];
my $FileFound;
my @FilesList=();
## Lecture de la liste des fichiers
opendir (my $FhRep, $Path)
or die "Impossible d'ouvrir le repertoire $Path\n";
my @Contenu = grep { !/^\.\.?$/ } readdir($FhRep);
closedir ($FhRep);
foreach my $FileFound (@Contenu) {
## Traitement des fichiers
if ( -f "$Path/$FileFound" ) {
push ( @FilesList, "$Path/$FileFound" );
}
## Traitement des repertoires
elsif ( -d "$Path/$FileFound" ) {
## Boucle pour lancer la recherche en mode recursif
push (@FilesList, GetFilesList("$Path/$FileFound" ) );
}
}
return @FilesList;
}
my @Files = GetFilesList ($repertoire[0]);
foreach my $File (@Files) {
next unless $File =~ /\.lst$/i;
print "$File \n";
}
my %dirs = ( facture_pdf => "facture", bulletin_paie => "paie", ordonnance => "ordonnance" ); # à remplacer éventuellement pas fichier de config
for my $dir (keys %dirs) {
my $file_names = "$dirs{$dir}*.pdf";
my @files = glob ("$dir/$file_names" );
for my $file (@files) {
convert ($dir, $file);
}
}
sub convert {
my ($dir, $file_in) = @_;
my $file_out = $file_in;
$file_out =~ s/pdf$/txt/;
}

J'ai installé le module CAM::PDF
Et voici mon message d'erreur :
Use of uninitialized value $content in pattern match (m//) at CStrawberry/perl/site/lib/CAM/PDF.pm line 301.
Use of uninitialized value $content in numeric gt (> ) at CStrawberry/perl/site/lib/CAM/PDF.pm line 311.
Use of uninitialized value $file in string eq at CStrawberry/perl/site/lib/CAM/PDF.pm line 314.
Use of uninitialized value $file in open at CStrawberry/perl/site/lib/CAM/PDF.pm line 327.
Use of uninitialized value $file in concatenation (.) or string at CStrawberry/perl/site/lib/CAM/PDF.pm line 342.
Can't locate object method "getRootDict" via package "C:\Users\baranowp\Documents\2016_01_07_08\facture\facture1.pdf" (p
erhaps you forgot to load "C:\Users\baranowp\Documents\2016_01_07_08\facture\facture1.pdf"?) at CStrawberry/perl/site/
lib/CAM/PDF.pm line 3786.

Reply

Marsh Posté le 14-03-2016 à 20:07:48

Bien évidemment, puisque vous faites ceci en 6e ligne: my $pdf = CAM::PDF->new(); et que le new doit se faire sur du contenu comme je fais ligne 25.
Les modules perls ont une doc sur les paramètres que prennent leurs fonctions, encore faudrait il la lire.

A+,

Message édité par gilou le 14-03-2016 à 20:09:22

---------------
There's more than what can be linked! -- Le capitaine qui ne veut pas obéir à la carte finira par obéir aux récifs. -- Il ne faut plus dire Sarkozy, mais Sarkozon -- (╯°□°)╯︵ ┻━┻

Reply

Marsh Posté le 15-03-2016 à 12:03:17

Lorsque je réalise ce programme je n'ai plus de message d'erreur :

Code :

use strict;
use warnings;
use PDF::API2;
use Config::IniFiles;
my $pdf = PDF::API2->new();
my @repertoire;
my @fichier_facture;
my @fichier_paie;
my @filelist;
my $cfg = Config::IniFiles->new( -file => $ARGV[0] );
foreach ('REP_FACTURE','REP_BULLETIN') {
push @repertoire, $cfg->val('repertoire', $_) if $cfg->val('repertoire', $_);
}
foreach ('FIC_1','FIC_2','FIC_3') {
push @fichier_facture, $cfg->val('fichier_facture', $_) if $cfg->val('fichier_facture', $_) ;
}
foreach ('FIC_4','FIC_5') {
push @fichier_paie, $cfg->val('param_paie', $_) if $cfg->val('param_paie', $_);
}
sub GetFilesList
{
my $Path = $_[0];
my $FileFound;
my @FilesList=();
## Lecture de la liste des fichiers
opendir (my $FhRep, $Path)
or die "Impossible d'ouvrir le repertoire $Path\n";
my @Contenu = grep { !/^\.\.?$/ } readdir($FhRep);
closedir ($FhRep);
foreach my $FileFound (@Contenu) {
## Traitement des fichiers
if ( -f "$Path/$FileFound" ) {
push ( @FilesList, "$Path/$FileFound" );
}
## Traitement des repertoires
elsif ( -d "$Path/$FileFound" ) {
## Boucle pour lancer la recherche en mode recursif
push (@FilesList, GetFilesList("$Path/$FileFound" ) );
}
}
return @FilesList;
}
my @Files = GetFilesList ($repertoire[0]);
foreach my $File (@Files) {
next unless $File =~ /\.pdf$/i;
print "$File \n";
}
@Files = GetFilesList ($repertoire[1]);
foreach my $File (@Files) {
next unless $File =~ /\.pdf$/i;
print "$File \n";
}
my %dirs = ( facture_pdf => "facture", bulletin_paie => "paie", ordonnance => "ordonnance" ); # à remplacer éventuellement pas fichier de config
for my $dir (keys %dirs) {
my $file_names = "$dirs{$dir}*.pdf";
my @files = glob ("$dir/$file_names" );
for my $file (@files) {
convert ($dir, $file);
}
}
sub convert {
my ($dir, $file_in) = @_;
my $file_out = $file_in;
$file_out =~ s/pdf$/txt/;
}

lorsque j'exécute le programme il me renvoi tous les fichiers pdf se trouvant dans les repertoires factures et bulletin de paie maintenant il ne me plus qu'à comprendre comment fonctionne la fonction convert pour avoir mes fichiers PDF au format txt

Cordialement

Reply

Marsh Posté le 16-03-2016 à 09:05:59

J'ai réussi à installer le module CAM::PDF. Je souhaite juste convertir les fichiers PDF en format txt pour extraire des données

Reply

Marsh Posté le 16-03-2016 à 12:01:51

Code :

#!/usr/bin/perl
 
use strict;
use warnings;
use autodie;
use CAM::PDF;
use CAM::PDF::PageText;
 
sub convert_pdf_to_text ($$) {
    my $pdf  = CAM::PDF->new(shift);
    my $tmp = $pdf->getPageContentTree(1);
    my $text = CAM::PDF::PageText->render($tmp);
    # ajustements à effectuer par rapport à la sortie,
    # sur un exemple simple, il me fallait ceci:
    $text =~ s/\n{5}/\n/g;
    $text =~ s/\n{4}/ /g;
    
    open my $fout, '>', shift;
    print $fout $text;
    close $fout;
}
 
my $pdf_filename = '....pdf';
my $txt_filename = '....txt';
 
convert_pdf_to_text($pdf_filename, $txt_filename);

Comme la conversion pdf->txt n'est pas une science exacte, la conversion n'est jamais assurée d'être parfaite si le document est complexe.

A+,

Message édité par gilou le 16-03-2016 à 12:03:08

---------------
There's more than what can be linked! -- Le capitaine qui ne veut pas obéir à la carte finira par obéir aux récifs. -- Il ne faut plus dire Sarkozy, mais Sarkozon -- (╯°□°)╯︵ ┻━┻

Reply

Marsh Posté le 16-03-2016 à 14:31:29

Si mon fichier pdf contient plusieurs tableau il faut que je modifie ceci :

Code :

$text =~ s/\n{5}/\n/g;
$text =~ s/\n{4}/ /g;

Reply

Marsh Posté le 16-03-2016 à 14:48:30

Si vous avez des tableaux, vous êtes mal barré, la structure d'un fichier pdf étant très différente de celle d'un fichier texte, vous n'êtes même pas sur que les fragments de texte vont être dans l'ordre voulu.
Il n'y a pas de solution miracle, le pdf est un format final, qui est pas conçu pour être exporté vers un autre format (surtout si la version du pdf est ancienne, et qu'il n'y a pas de structure hiérarchique dedans). En général, quand on veut récupérer le contenu d'un fichier pdf avec des tableaux, on fait appel à un OCR de bonne qualité, et on relit attentivement le résultat

Mon avis: récupérer le programme pdftohtml, appeler ce programme pour convertir vos documents pdf en xml, et travailler sur les documents xml générés en espérant que pdftohtml a fait du bon boulot.

A+,

Message édité par gilou le 16-03-2016 à 15:03:54

---------------
There's more than what can be linked! -- Le capitaine qui ne veut pas obéir à la carte finira par obéir aux récifs. -- Il ne faut plus dire Sarkozy, mais Sarkozon -- (╯°□°)╯︵ ┻━┻

Reply

Convertir fichier PDF en fichier txt

Sujets relatifs:

Leave a Replay