programmation d'un bot de moteur de recherche [JAVA] - Java - Programmation
Marsh Posté le 30-01-2003 à 22:25:01
avec des regex... sans promesse de performances
Marsh Posté le 31-01-2003 à 01:56:11
ben ce que tu peux faire c'est utiliser un generateur de parser, genre CUP et tu le couple a un analyseur syntaxique genre JFlex...ca sonne complique, mais en fait c'est tout simple, tu n'a qu'un seul truc a faire c'est ecrire ta grammaire, dant ton cas ce sera simple.
http://www.cs.princeton.edu/~appel/modern/java/CUP/
http://www.jflex.de/
voila,c'est un peu tuer des mouches au au gourdin mais bon...c'est simple et ca marchera
Souk
Marsh Posté le 30-01-2003 à 18:12:29
Salut
Je cherche a réaliser en java un bot de moteur de recherche.
Malgré de nombreux essais, j'ai du mal à récuperer TOUS les liens présents dans les pages (<a href=... ; <area href=... ; <frame src=...)
Ce que je comptais faire, c'est lire ligne à ligne la page html, avec un BufferedReader (méthode .readline() ); et pour chaque ligne, chercher les "<a", puis "href=", et enfin, lire la chaine qui suit entre guillemets ou ', en utilisant la méthode .indexOf.
Avez vous une meilleure idée ?
Mon code marche a peu près, mais je suis a la recherche d'autres moyens de proceder. Si vous avez des idées.
D'avance, merci
Edit : En fait, je crois que mon problème, c'est de récuperer la chaine entre guillemets...
Message édité par jkay le 30-01-2003 à 18:26:13