HTMLParser.HTMLParseError

Sockets, TCP/IP, (XML-)RPC und ähnliche Themen gehören in dieses Forum
Antworten
spool
User
Beiträge: 2
Registriert: Freitag 17. November 2006, 15:23

hiho,

ich versuche mittels HTMLParser eine Datei zu parsen. bei einfachen Test Werten ala

Code: Alles auswählen

     testData = '<html><body><table>'+\
                '<td class="bla">test</td>'+\
                '<td class="ausgabe" valign="center" width="159">test2</td>'+\
                '</table></body></html>'
kein problem. Versuche ich jetzt allerdings komplexe HTML Dateien zu parsen erhalten ich folgende Fehlermeldung:

Code: Alles auswählen

  File "./test2.py", line 50, in <module>
    parser.close()
  File "/usr/lib/python2.5/HTMLParser.py", line 112, in close
    self.goahead(1)
  File "/usr/lib/python2.5/HTMLParser.py", line 164, in goahead
    self.error("EOF in middle of construct")
  File "/usr/lib/python2.5/HTMLParser.py", line 115, in error
    raise HTMLParseError(message, self.getpos())
HTMLParser.HTMLParseError: EOF in middle of construct, at line 1, column 2124
irgendwelche Ideen, was man dagegen tun kann?

Gruß

ralf
BlackJack

Wie gross ist denn die Datei? Besteht die nur aus einer Zeile!?

Wo kommt das HTML her? Ist das syntaktisch korrekt? Wenn Du "kaputtes" HTML verarbeiten möchtest dann solltest Du besser BeautifulSoup benutzen.
spool
User
Beiträge: 2
Registriert: Freitag 17. November 2006, 15:23

die datei ist recht umfangreich sowie mehrzeilig( teilweise mit vielen \t & \n drin)
100% korrekt ist das html leider auch nicht, stellenweise sehr viel java script drin.

auf den aufbau, syntax usw. habe ich leider keinen einfluss.

ich werd mal beautiful soup antesten thx ^^
Antworten