Zahlen aus HTML extrahieren
Verfasst: Montag 2. April 2007, 15:33
hallo
ich möchte in einer funktion aus folgendem html-code eine zahl extrahieren:
Dazu habe ich folgendes geschrieben:
Ich erhalte die Fehlermeldung:
File "test5.py", line 24, in auswerten
letztesStueck = re2.findall(zeile)
TypeError: expected string or buffer
WARUM?
ich möchte in einer funktion aus folgendem html-code eine zahl extrahieren:
Code: Alles auswählen
<tr class=t2 height=30 valign=top>
<td rowspan=2 class=s align=right>225,89<p align=right></td>
<td rowspan=2 class=s align=center><a target=_blank href="/redir.cgi?h=it-designworks&loc=http:%2F%2Fwww.haym.info%2FSHOP%2Findex.html%3Fartikelnr%3D6A03198"><b>it-designworks (haym.infotec)</b></a><p><center><small><p><div align=right><nobr><a href="./?qlink=it-designworks%20%28haym.infotec%29&subi=infos">Infos</a> <a href="/redir.cgi?h=it-designworks&loc=http%3A%2F%2Fwww.haym.info%2FSHOP%2Fagb.htm" target=_blank>AGB</a> <a href="http://forum.geizhals.at/search.jsp?k=&author=&topic=%22%7Eit%5B%20-%5D%2Adesignworks%20%28haym%22&area=1&maxAge=0">Meinungen</a></nobr></div></td>
<td rowspan=2 class=s align=center><p><a href="./?sb=555"><img border=0 valign=absmiddle vspace=2 src=http://geizhals.at/b/1_ani.gif alt="Note: 1,21" title="Note: 1,21 - Spitze!"></a><br><small>Note: 1,21</small><p class=x><small><a href="./?sb=555">708</a> Bewertungen</small><p></td>
<td class=s width=150>nicht verfügbar</td>
<td rowspan=2 class=s width="75%">Acer AM.<wbr>K0203.<wbr>001<br>Acer - Acer CI-<wbr>8330 (AM.<wbr>K0203.<wbr>001) (AM.<wbr>K0203.<wbr>001)<br>(Art# 6A03198)<p>(02.04.2007, 12:10)</td>
</tr>
Code: Alles auswählen
def auswerten(self):
re1 = compile('<tr>.*?' + 'it-designworks' + '.*?</tr>') # Damit suche ich mir den teil, in welchem "It-designworks" vorkommt...das ist der oben angegebene teil
re2 = compile('\d+<p align=right></td>') # damit suche ich zahlen, die vor dem text "<p align=right></td>" stehen
re3 = compile('\d+') #damit hole ich mir die zahl
zeile = re1.findall(self.htmltext)
letztesStueck = re2.findall(zeile)
return re3.findall(letztesStueck)
File "test5.py", line 24, in auswerten
letztesStueck = re2.findall(zeile)
TypeError: expected string or buffer
WARUM?