Obtenir TOUT le texte entre 2 balises via xml.etree.ElementTree

Obtenir TOUT le texte entre 2 balises via xml.etree.ElementTree - Python - Programmation

Marsh Posté le 19-07-2011 à 10:31:22    

Bonjour,
 
Je ne parviens pas à récupérer le contenu texte d'une balise <span> en python après navigation DOM et obtention d'un 'Element'. La méthode .text ne renvoit pas tout le contenu, elle semble perturbée par une syntaxe douteuse.
http://www.python.org/doc/current/ [...] ement.text
 
Texte traité :

Code :
  1. <span class="webkit-html-tag">
  2.   <td
  3.   <span class="webkit-html-attribute-name">style</span>
  4.   ="
  5.   <span class="webkit-html-attribute-value">border-left-style:solid; border-left-width:1px;</span>
  6.   ">
  7. </span>


 
dans la chaine final, je ne trouve que [<td]. Les contenus [="] et [">] sont passés à la trape.
 
Il y aurait un mode RAW qui laisserait passer tous les sous éléments ?
 
Sinon, pas besoin de faire la remarque, ceux qui ont écrit la page que je retraite ne savent visiblement pas faire de HTML... c'est le site de l'assemblée nationnale.

Reply

Marsh Posté le 19-07-2011 à 10:31:22   

Reply

Marsh Posté le 19-07-2011 à 11:49:10    

NounouRs a écrit :

Bonjour,
 
Je ne parviens pas à récupérer le contenu texte d'une balise <span> en python après navigation DOM et obtention d'un 'Element'. La méthode .text ne renvoit pas tout le contenu, elle semble perturbée par une syntaxe douteuse.
http://www.python.org/doc/current/ [...] ement.text
 
Texte traité :

Code :
  1. <span class="webkit-html-tag">
  2.   <td
  3.   <span class="webkit-html-attribute-name">style</span>
  4.   ="
  5.   <span class="webkit-html-attribute-value">border-left-style:solid; border-left-width:1px;</span>
  6.   ">
  7. </span>


 
dans la chaine final, je ne trouve que [<td]. Les contenus [="] et [">] sont passés à la trape.
 
Il y aurait un mode RAW qui laisserait passer tous les sous éléments ?
 
Sinon, pas besoin de faire la remarque, ceux qui ont écrit la page que je retraite ne savent visiblement pas faire de HTML... c'est le site de l'assemblée nationnale.


C'est pas du XML, elementtree peut pas parser un truc pareil, il est pas fait pour ça [:petrus75]


---------------
I mean, true, a cancer will probably destroy its host organism. But what about the cells whose mutations allow them to think outside the box, and replicate and expand beyond their wildest dreams by throwing away the limits imposed by overbearing genetic r
Reply

Sujets relatifs:

Leave a Replay

Make sure you enter the(*)required information where indicate.HTML code is not allowed