HTMLParser.HTMLParseError

spool · Freitag 17. November 2006, 15:57

hiho,

ich versuche mittels HTMLParser eine Datei zu parsen. bei einfachen Test Werten ala

     testData = '<html><body><table>'+\
                '<td class="bla">test</td>'+\
                '<td class="ausgabe" valign="center" width="159">test2</td>'+\
                '</table></body></html>'

kein problem. Versuche ich jetzt allerdings komplexe HTML Dateien zu parsen erhalten ich folgende Fehlermeldung:

Code: Alles auswählen

  File "./test2.py", line 50, in <module>
    parser.close()
  File "/usr/lib/python2.5/HTMLParser.py", line 112, in close
    self.goahead(1)
  File "/usr/lib/python2.5/HTMLParser.py", line 164, in goahead
    self.error("EOF in middle of construct")
  File "/usr/lib/python2.5/HTMLParser.py", line 115, in error
    raise HTMLParseError(message, self.getpos())
HTMLParser.HTMLParseError: EOF in middle of construct, at line 1, column 2124

irgendwelche Ideen, was man dagegen tun kann?

Gruß

ralf

BlackJack · Freitag 17. November 2006, 16:18

Wie gross ist denn die Datei? Besteht die nur aus einer Zeile!?

Wo kommt das HTML her? Ist das syntaktisch korrekt? Wenn Du "kaputtes" HTML verarbeiten möchtest dann solltest Du besser BeautifulSoup benutzen.

spool · Freitag 17. November 2006, 16:37

die datei ist recht umfangreich sowie mehrzeilig( teilweise mit vielen \t & \n drin)
100% korrekt ist das html leider auch nicht, stellenweise sehr viel java script drin.

auf den aufbau, syntax usw. habe ich leider keinen einfluss.

ich werd mal beautiful soup antesten thx ^^