faire son propre moteur de recherche/indexeur

faire son propre moteur de recherche/indexeur - Divers - Programmation

Marsh Posté le 04-03-2014 à 18:18:26    

Hello
 
Une question comme ca car j'ai du mal a trouver dans goog
 
j'aimerais me faire un ptit moteur de recherche pour indexer on va dire de l'ordre de 1000 sites
Au depart je veux de l'indexation pure et dure mais ensuite peut etre ajouter des trucs un peu semantiques voir kelkoo like
Clairement j'y connais rien cad c'est la premiere fois que je regarde ca; j'ai checké deux trois trucs: elastic search, apache SOLR, yahoo BOSS mais je capte pas trop l'architecture
 
* savez vous s'il y a des trucs un peu plug & play pour se faire ca soit meme?
* avez vous des liens interessants sur le sujet?
* ou des idées d'architecture moteur/back/front?
 
car quand je tape 'faire mon propre moteur de recherche' je tombe sur tout sauf des trucs interessants...
 
thanks!

Reply

Marsh Posté le 04-03-2014 à 18:18:26   

Reply

Marsh Posté le 11-03-2014 à 15:17:49    

Bonjour,
 
tout dépend à quel point vous voulez mettre les mains dans le cambouis, et si vous cherchez une approche Saas ou si vous voulez tout vous installer sur votre serveur.
 
Au niveau softs à installer chez soi:
. Si c'est pour indexer des sites webs, le projet open source fait pour ca, c'est Apache Nutch (bon, ca a été fait pour crawler des millions de sites, mais du coup ca passera pour un millier).  
. Il existe des solutions de recherche open source packagées comme Constellio et OpenSearchServer (ce dernier pouvant aussi être utilisé en Saas), mais qui sont généralistes, il faudra peut-etre retravailler la UI.
. Nous on bosse sur une solution appelée Datafari, mais elle n'est peut-etre pas encore assez stable pour ce que vous cherchez à faire (cela dit, les commentaires sont les bienvenus).
. Apache Solr et ElasticSearch sont bien, mais ce sont plutôt des briques, il faut rajouter des choses autour. Par contre ca fournit une grande flexibilité sur ce qu'on peut faire
 
Au niveau service Saas:
. Algolia et Addsearch sont faits pour les sites webs, mais ce sont des APIs web payantes
. Il y a des serveurs hostés par exemple par gotosolr.
 
Au niveau archi:
. En règle général, il y a 3 composants (des exemples open source entre parenthèses):  
   . le crawler, qui parcourt les sites et les envoie au moteur d'indexation (Apache ManifoldCF, Google Connector framework, ElasticSearch rivers)
   . le moteur de d'indexation et de recherche (Solr, Lucene)
   . la UI de recherche qui transmet les requêtes au moteur (AjaxSolr, AjaxFranceLabs (ce dernier il est à nous donc on l'aime bien)).
 
Sur Solr, un bon bouquin est Solr In Action, il est pas encore finalisé mais déjà dispo sur Manning en version early access.
 
Histoire de comprendre comment marchent les moteurs de recherche plus fondatelement, il y a un cours en ligne pour apprendre la programmation en créant un moteur de recherche, c'est assez instructif pour démarrer: https://www.udacity.com/course/cs101
 
Voili voilou.

Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed