Comment récupérer des informations sur un site web ?

Comment récupérer des informations sur un site web ? - Divers - Programmation

Marsh Posté le 09-06-2010 à 14:55:43    

Bonjour,  
j'aimerais récupérer des informations sur un site web de façon automatique et j'aurais besoin de vos conseils.
Voilà, par exemple je voudrais obtenir le chiffre d'affaire d'une liste d'entreprise ( avec leur numéro SIRET ), d'après le site www.societe.com.
Avez vous une idée s'il existe déjà un moyen simple de le faire, ou sinon à quel type de programmation dois-je m'atteler ?
Merci par avance.

Reply

Marsh Posté le 09-06-2010 à 14:55:43   

Reply

Marsh Posté le 09-06-2010 à 15:37:49    

Par ex en faisant un robot en php qui va utiliser fopen() puis la lib DOM (ou un autre parseur) et extraire les données désirées.
 
Mais ton robot aura intérêt à être discret (en terme de charge) vis à vis du site concerné car ce genre de pratique est rarement appréciée par le site (c'est même illégal il me semble quand il n'y a pas eu de demande d'autorisation de ta part).


---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta
Reply

Marsh Posté le 09-06-2010 à 15:58:17    

Merci de ta réponse rapide.
Tout d'abord, je tiens à préciser que je ne compte pas "surcharger" le site avec des listes interminables.  
Simplement,  je voudrais que lorsque je tape le siret d'une entreprise ( dans un petit programme basique), j'obtienne alors directement son chiffre d'affaire ( sans passer par les étapes : aller sur www.société.com => rechercher=> entrer numéro => chercher la case CA, copier excel ...).  
Ensuite, est-ce qu'il est nécessaire de faire le robot en PHP ou bien est-ce possible en C ( seul langage que je connaisse ^^), voire ce genre de robot existe-t-il en open source ?

Reply

Marsh Posté le 09-06-2010 à 17:57:33    

auto it peut le faire, c'est un ptit langage de script tout simple, après je programme pas trop, alors je connais pas toutes les possibilités du C ;)


---------------
feedback : http://forum.hardware.fr/hfr/Achat [...] 7774_1.htm
Reply

Marsh Posté le 09-06-2010 à 18:04:20    

AutoIt est bien pas pas franchement adapté dans cette situation : parser des pages HTML, c'est pas son truc. A ma connaissance, il n'a pas un tel parser alors que PHP en a plusieurs. Sur sourceforge, y'a une lib plus puissante que DOM pour parser le HTML et pas sensibles aux erreurs de codage HTML, mais je ne me rappelle plus le nom :/ Qq'un de ce forum avait donné le lien y'a qq jours...


---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta
Reply

Marsh Posté le 09-06-2010 à 18:12:01    

beautiful soup


---------------
brisez les rêves des gens, il en restera toujours quelque chose...  -- laissez moi troller sur discu !
Reply

Marsh Posté le 10-06-2010 à 09:39:58    

Non, c'est une lib écrite en php.


---------------
Astres, outil de help-desk GPL : http://sourceforge.net/projects/astres, ICARE, gestion de conf : http://sourceforge.net/projects/icare, Outil Planeta Calandreta : https://framalibre.org/content/planeta-calandreta
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed