Fonctionnement d'un moteur de recherche externe

Fonctionnement d'un moteur de recherche externe - PHP - Programmation

Marsh Posté le 15-02-2009 à 02:47:24    

Bonsoir,
 
ma question concerne les moteurs de recherche. Je parle bien d'un moteur de recherche "global" et pas un moteur de recherche interne à un site. En effet, j'ai vu ici et là sur le web était question de projets de codage de moteurs de recherche avec un bot qui se charge d'indexer les pages. Sachant qu'il me semble que ce sont des bots programmés en PHP, je me posais la question de savoir comment est-ce que du coup il récupère les infos pour ensuite les insérer en BDD de manière à ce que ce soit pas trop lent et efficace ?
 
Merci d'avance de vos éclaircissements ;) .


---------------
"About your cat Mr. Schrödinger : I have good news and bad news"
Reply

Marsh Posté le 15-02-2009 à 02:47:24   

Reply

Marsh Posté le 15-02-2009 à 12:47:06    

Je me permet de relancer :)


---------------
"About your cat Mr. Schrödinger : I have good news and bad news"
Reply

Marsh Posté le 16-02-2009 à 00:28:26    

Ah bah y'a du taf' mais ça peut être intéréssant et ça permet d'apprendre aussi.
 
En fait, je voudrais faire tourner 2  types de bots : un qui s'occupe de l'indexation des pages soumies manuellement (et ça peut faire un point de départ du coup) et un autre - qui s'occupe de sillonner le web - du moins une partie, je n'ai pas la prétention de faire un truc énormissime -. Sachant que je vais déjà essayer de bien faire le premier avant de faire tourner le deuxième.
Et je vois le schéma comme ça :
 
1/ extraction des données de la page (en gros, on récupère un maximum)
2/ on fait le tri pour ne garder que ce qui doit être indexé
3/ on insère dans la BDD
 
Bon c'est en gros, je ne sais pas si ça a l'air très réaliste. mais les deux soluces ensembles, ça devrait faire un truc plus ou moins potable.


---------------
"About your cat Mr. Schrödinger : I have good news and bad news"
Reply

Marsh Posté le 16-02-2009 à 05:06:03    

si c'est pour apprendre , pas de pb  
si c'est pour faire un truc utile , alors je te conseille solr (eventuellement avec nutch)ou sphinx , pour ameliorer ta recherche ( declinaison des mots , correction ortho , ...)


---------------

Reply

Marsh Posté le 16-02-2009 à 18:31:55    

C'est avant tout pour apprendre wé, maintenant, cela n'empêche que  le moteur de base pourra être améliorer, ne serait-ce que pour la pertinence des résultats.


---------------
"About your cat Mr. Schrödinger : I have good news and bad news"
Reply

Marsh Posté le 16-02-2009 à 23:01:16    

Euh question NazzTazz, à aucun moment dans ton fonctionnement, tu en fais appels aux fichiers, tout passe par une BDD en fait ?


---------------
"About your cat Mr. Schrödinger : I have good news and bad news"
Reply

Marsh Posté le 23-02-2009 à 11:55:02    

je reflechissait justement hier a un probleme simillaire, et je me demandais quel point de depart prendre ? une idée ?

Reply

Marsh Posté le 23-02-2009 à 18:23:46    

patrir de l'existant, si  c'ets pour faire qq chose qui marche :o


---------------

Reply

Marsh Posté le 23-02-2009 à 18:38:32    

nan mais a partir de quel site par exemple commencer a explorer les liens ?

Reply

Marsh Posté le 23-02-2009 à 18:43:27    

pas un  seul, mais plusieurs site que tu aura recensé comme étant relevant a ton projet ( a moins que tu ne veuille concurencé google avec un moteur généraliste )


---------------

Reply

Marsh Posté le 23-02-2009 à 18:43:27   

Reply

Marsh Posté le 23-02-2009 à 18:51:54    

ok :jap:

 

pas vraiment un projet, mais voir jusqu'ou il peut aller, combien de domaines il peut recenser, ...

 

l'idée c'est :

 

Partir d'un site, inserer le domaine dans la bdd,

 

lire le source html,
faire la liste des liens contenus dans une balise <a>,

 

parcourir la liste, si deja dans la bdd : rien faire,
si pas dans la bdd : l'ajouter, et explorer le site.

 

je me demande si je dois explorer les pages ou j'ai deja le domaine dans la bdd (genre ce forum, pour recolter les liens dans les messages)


Message édité par tomsoft le 23-02-2009 à 18:56:33
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed