große XML häppchenweise einlesen

Leonidas · Dienstag 1. April 2008, 21:58

droptix hat geschrieben:Na, gehen wir mal davon aus, dass in  wirklich zu große Daten stehen, also nehmen wir ruhig 10.000 bis 50.000 Zeilen an.

Und, ist es mit Minidom zu langsam für dich?

droptix · Dienstag 1. April 2008, 22:05

Nun ja, die Geschwindigkeit hab ich noch gar nicht gemessen, nur gefühlt dauert das schon sehr lange. Aber den Speicherverbrauch hab ich gemessen, und der explodiert mit minidom gewaltig. Eine XML-Datei mit gut 20.000 Zeichen ist so um die 1,5 MB groß. Beim Einlesen werden ca. 90 MB Arbeitsspeicher benötigt. Das ist recht heftig.

Leonidas · Dienstag 1. April 2008, 22:27

Ok, das ist nun endlich mal etwas handfestes. Also kannst du mal das mit SAX implementieren und gucken, wie es im Vergleich dazu abschneidet.

rezeptor · Donnerstag 3. April 2008, 08:22

Ich würde zu ElementTree greifen. Das Modul benutzt ja wie bereits gesagt Expat und da dieser stream-orientiert arbeitet, kannst du dir ElementTree ableiten und in die Feed-Methode entsprechende Funktionalitäten zur steuerung der zu parsenden Datenmenge einbauen. (Also bevor du den eigentlichen Feed-Call zur Basisklasse machst.)

nkoehring · Montag 7. April 2008, 22:21

@rezeptor: Hmm... das klingt ja nett, aber wie soll man das denn anstellen? Haettest du da ein kurzes Beispiel?