Capturer un <span property="qqchose">

Marsh Posté le 04-12-2010 à 20:18:54

Bonsoir, j'aimerais savoir s'il est possible de capturer la valeur de ce qu'il y a entre les balises d'ouverture et de fermeture du code html suivant, provenant d'un site quelconque sur internet:

Citation :

... Puis écrire cette valeur sur une page php de son site perso (sous LAMP, le site)

Je pense que si c'est possible, l'identification du bon "span property" se ferait avec le nom de ce dernier (ici "qqchose" )

Je ne connais pas vraiment le php, donc merci d'avance :whistle:

Reply

Marsh Posté le 04-12-2010 à 20:18:54

Reply

Marsh Posté le 05-12-2010 à 00:19:08

Regexp

Message cité 1 fois

---------------
"I can cry like Roger. It's just a shame I can't play like him" - Andy Murray, 2010

Reply

Marsh Posté le 07-12-2010 à 10:25:40

DOMDocument & DOMXPath sont tes amis :jap:

Un truc du style $xpath->query("*/span[@property='qqchose']" );

Message cité 1 fois

Reply

Marsh Posté le 07-12-2010 à 10:27:17

smaragdus a écrit :

DOMDocument & DOMXPath sont tes amis :jap:

Un truc du style $xpath->query("*/span[@property='qqchose']" );

+1

Reply

Marsh Posté le 09-12-2010 à 13:59:38

Oh merci beaucoup, je ne pensais pas que je serais aidé à ce point là , c'était inespéré :love:

Reply

Marsh Posté le 09-12-2010 à 16:52:54

Heureux d'avoir pu t'aider :hello:

Reply

Marsh Posté le 12-12-2010 à 12:09:42

WiiDS a écrit :

Regexp

http://stackoverflow.com/questions [...] 54#1732454

Message cité 1 fois
Message édité par TotalRecall le 12-12-2010 à 12:10:24

---------------
Topic .Net - C# @ Prog

Reply

Marsh Posté le 12-12-2010 à 12:53:19

TotalRecall a écrit :

http://stackoverflow.com/questions [...] 54#1732454

Citation :

I think the flaw here is that HTML is a Chomsky Type 2 grammar (context free grammar) and RegEx is a Chomsky Type 3 grammar (regular expression). Since a Type 2 grammar is fundamentally more complex than a Type 3 grammar - you can't possibly hope to make this work. But many will try, some will claim success and others will find the fault and totally mess you up.

Arf, ya des trucs en théorie des langages qui sont vraiment bourrins :ouch:

Message cité 1 fois

Reply

Marsh Posté le 12-12-2010 à 17:44:00

smaragdus a écrit :

Citation :

I think the flaw here is that HTML is a Chomsky Type 2 grammar (context free grammar) and RegEx is a Chomsky Type 3 grammar (regular expression). Since a Type 2 grammar is fundamentally more complex than a Type 3 grammar - you can't possibly hope to make this work. But many will try, some will claim success and others will find the fault and totally mess you up.

Arf, ya des trucs en théorie des langages qui sont vraiment bourrins :ouch:

Possible, mais c'est extrêmement intéressant et ça donne parfois lieu à des raisonnements et des interprétations qui sortent complètement du contexte de la programmation. Je regrette vraiment de n'avoir jusque alors jamais trouvé personne pour me parler de ça de façon moins chiante et académique que ne le font les profs de fac.

Enfin je crois que le fond de mon message était clair : sauf HTML super bien construit et quasiment statique (mais alors quel besoin de le parser si on sait déjà ce qu'il y a dedans ?) on oublie les regexes pour cet usage !!
Et même avec du HTML parfait au regarde la norme, gérer proprement les problèmes de récursion/backtracking avec des regex nécessitent des compétences limites divines en la matière, beaucoup de temps et de café... Ou alors on prend un con de parser HTML un tout petit peu plus fait pour ça.

Message cité 1 fois
Message édité par TotalRecall le 12-12-2010 à 17:44:25

---------------
Topic .Net - C# @ Prog

Reply

Marsh Posté le 12-12-2010 à 21:52:40

TotalRecall a écrit :

Possible, mais c'est extrêmement intéressant et ça donne parfois lieu à des raisonnements et des interprétations qui sortent complètement du contexte de la programmation. Je regrette vraiment de n'avoir jusque alors jamais trouvé personne pour me parler de ça de façon moins chiante et académique que ne le font les profs de fac.

J'ai jamais appris ça à l'école mais c'est clair que ça doit être passionnant comme domaine. Je vais aller faire un tour sur wikipedia. En y repensant, les grammaires de Chomksy me disent vaguement quelque chose, je me demande si j'ai pas lu des trucs à ce propos quand je faisais du Prolog.

Citation :

Enfin je crois que le fond de mon message était clair : sauf HTML super bien construit et quasiment statique (mais alors quel besoin de le parser si on sait déjà ce qu'il y a dedans ?) on oublie les regexes pour cet usage !!

tout à fait

Citation :

Et même avec du HTML parfait au regarde la norme, gérer proprement les problèmes de récursion/backtracking avec des regex nécessitent des compétences limites divines en la matière, beaucoup de temps et de café... Ou alors on prend un con de parser HTML un tout petit peu plus fait pour ça.

Je ne suis on-ne-peut-plus d'accord :jap:

Les regex c'est pratique pour extraire des trucs des log d'apache ou valider des champs de formulaire (genre un email) mais au delà... En plus c'est pas maintenable, ça fait du code kabbalistique.

Reply

Capturer un <span property="qqchose">

Sujets relatifs:

Leave a Replay