problème de manipulation/réorganisation de fichiers

Marsh Posté le 06-04-2013 à 22:26:02

Bonsoir à tous!
je viens solliciter vos lumières au sujet d'un script Perl visant la manipulation de fichiers. Alors voilà ce que j'ai:
- deux fichiers comportant des lignes allant deux par deux, organisés comme ceci (même organisation pour les deux:
>1 count:272019
TACCTGGTTGATCCTGCCAG
>2 count:48613
TTTGGATTGAAGGGAGCTCTA
>3 count:15422
TTTGGATTGAAGGGAGCTCT
>4 count:9818
TTGGACTGAAGGGAGCT
>5 count:8783
TTGGACTGAAGGGAGCTCCCT
- ces deux fichiers ne sont pas triés dans le même ordre, mais il devraient avoir des séquences (la deuxième ligne de chaque bloc de deux lignes qui se retrouvent dans les deux fichiers
Passons maintenant à ce que j'aimerais faire:
- trier ces fichiers afin que les séquences qu'ils contiennent soient dans le même ordre
- éditer la ligne de nom (la première ligne de chaque bloc de deux lignes) afin de ne garder que la valeur située après "count:" (NOTE: pour une même séquence cette valeur est différente entre le fichier 1 et le fichier 2). Pour les séquences n'apparaissant que dans l'un des fichiers, il faudrait que dans celui où elles n'apparaissent pas leur valeur de count soit égale à zéro.
Ce que j'ai fait jusque là: j'ai réussi à trier toutes mes séquences de façon à ce qu'elles soient dans le même ordre dans mes deux fichiers (j'ai créé deux nouveaux fichiers, afin de ne pas altérer mes fichiers d'origine). Mon code est comme ceci:

Code :

use warnings;
use strict;
my $fast1="C:/Users/Moi/fichier1.fasta";
open (my $IN1, "<", $fast1) or die "Impossible d'ouvrir le fichier $fast1 $!";
my $fast2="C:/Users/Moi/fichier2.fasta";
open (my $IN2, "<", $fast2) or die "Impossible d'ouvrir le fichier $fast2 $!";
my $trie1="C:/Users/Moi/fichier1bis.fasta";
open (my $OUT1, ">", $trie1) or die "Impossible d'ouvrir le fichier $trie1 $!";
my $trie2="C:/Users/Moi/fichier2bis.fasta";
open (my $OUT2, ">", $trie2) or die "Impossible d'ouvrir le fichier $trie2 $!";
my %results;
#my @tab;
my ($name, $line);
while($name = <$IN1> )
{
$line=<$IN1>;
chomp $name;
chomp $line;
#@tab = split (/:/, $name);
#$count=$tab[1];
$results{$line}=1;
}
while($name = <$IN2> )
{
$line=<$IN2>;
chomp $name;
chomp $line;
#@tab = split (/:/, $name);
#$count=$tab[1];
if (exists $results{$line})
{
$results{$line}++;
}
}
foreach $line (keys %results)
{
if ($results{$line} == 1)
{
print $OUT1 "$line\n";
}
if ($results{$line}==2)
{
print $OUT1 "$line\n";
print $OUT2 "$line\n";
}
else
{
print $OUT2 "$line\n";
}
}
close ($IN1);
close ($IN2);
close ($OUT1);
close ($OUT2);
print "Programme termine";
<STDIN>

Bon alors, comme je l'ai dit, ce code semble marcher. Cependant, mon problème est: je ne sais pas comment faire pour garder la valeur de count et qu'elle reste bien associée à la ligne à laquelle elle correspondait dans le fichier d'origine. Au début je voulais faire un $results{$count}=1, etc (comme pour la séquence), mais le problème est que je n'ai pas le même count dans le deux fichiers pour une même séquence, du coup, je suis perdu... Comme vous pouvez le voir par les lignes commentées que j'ai laissées dans mon code, j'avais aussi une idée d'y stocker dans un tableau, mais en fait, je ne vois pas comment spécifier que cette valeur doit rester associée à la séquence de la ligne suivante...
Je dois bien avouer être une énorme bille en hash et encore plus en hash de hash que je ne comprend absolument pas, bien que je lise cours et exemples, et donc un petit coup de main serait le bienvenu...

---------------
Je n'ai pas une case en moins, je commence juste à compter à partir de zéro

Reply

Marsh Posté le 06-04-2013 à 22:26:02

Reply

Marsh Posté le 08-04-2013 à 21:11:57

Je procéderais ainsi:

Code :

#!/usr/bin/perl
use strict;
use warnings;
use autodie;
 
sub processFiles (@) {
  my %data;
  my $index = 0;
  foreach my $file (@_) {
    open my $handle, "<", $file;
    my ($compte, $sequence);
    while (defined($compte = <$handle> ) and defined($sequence = <$handle> )) {
      # suppression des blancs éventuels et de la fin de ligne
      map {chomp; s/^\s+//; s/\s+$//;}($compte, $sequence);
      last unless (length($compte) * length($sequence) > 0);
      # verification de la cohérence des données lues
      $compte =~ s/^.*count:\s*//;
      last unless ($compte =~ /\d+/ and $sequence =~ /[ACGT]+/); 
      # On pourrait signaler une erreur ici si necessaire
 
      unless (defined(${data}{$sequence})) {
        $data{$sequence} = [];
      }
      $data{$sequence}->[$index] = $compte;
    }
    close $handle;
    ++$index;
  }
  # A ce stade, %data a toute l'information glanée dans les fichiers
  # On va filtrer sur le champ $data{$sequence}->[i] pour le (i+1)-ième fichier
  $index = 0;
  foreach my $file (@_) {
    my ($before, $after) = split(/.([^.]+)$/, $file);
    $file = $before."bis.".$after;
    open my $handle, ">", $file;
    foreach (sort {$a cmp $b} (keys %data)) {
      # $handle $data{$_}->[$index] // 0 renvoie $data{$_}->[$index] s'il est défini et 0 sinon
      say $handle $data{$_}->[$index] // 0;
      say $handle $_;
    }
    close $handle;
    ++$index;
  }
}
 
my @infiles;
push @infiles, 'fichier1.fasta';
push @infiles, 'fichier2.fasta';
processFiles(@infiles);

C'est du code relativement générique, qui peut marcher avec plus de 2 fichiers en entrée le cas échéant.
Je crée un hash, %data, dont les clés sont les séquences GTAC... lues (la seule hypothèse, ici, est que chaque séquence n'est présente qu'une fois par fichier, mais sinon, cela n'aurait guère de sens), et pour chaque clé, la valeur est un tableau ($data{$sequence} = [];) dont la i-ème entrée est la valeur de compte lue dans le (i+1)-ième fichier ($data{$sequence}->[$index] = $compte;) (ou undef, si la séquence n'est pas dans le fichier).
A toi d'adapter selon tes besoins, je te donnerais plus d'explications si nécessaire.

A+,

Message édité par gilou le 08-04-2013 à 21:35:31

---------------
There's more than what can be linked! -- Le capitaine qui ne veut pas obéir à la carte finira par obéir aux récifs. -- Il ne faut plus dire Sarkozy, mais Sarkozon -- (╯°□°)╯︵ ┻━┻

Reply

problème de manipulation/réorganisation de fichiers

Sujets relatifs:

Leave a Replay