große XML häppchenweise einlesen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Leonidas
Python-Forum Veteran
Beiträge: 16025
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

droptix hat geschrieben:Na, gehen wir mal davon aus, dass in <!-- BIG data --> wirklich zu große Daten stehen, also nehmen wir ruhig 10.000 bis 50.000 Zeilen an.
Und, ist es mit Minidom zu langsam für dich?
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
droptix
User
Beiträge: 521
Registriert: Donnerstag 13. Oktober 2005, 21:27

Nun ja, die Geschwindigkeit hab ich noch gar nicht gemessen, nur gefühlt dauert das schon sehr lange. Aber den Speicherverbrauch hab ich gemessen, und der explodiert mit minidom gewaltig. Eine XML-Datei mit gut 20.000 Zeichen ist so um die 1,5 MB groß. Beim Einlesen werden ca. 90 MB Arbeitsspeicher benötigt. Das ist recht heftig.
Leonidas
Python-Forum Veteran
Beiträge: 16025
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Ok, das ist nun endlich mal etwas handfestes. Also kannst du mal das mit SAX implementieren und gucken, wie es im Vergleich dazu abschneidet.
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
rezeptor
User
Beiträge: 8
Registriert: Dienstag 6. November 2007, 23:02

Ich würde zu ElementTree greifen. Das Modul benutzt ja wie bereits gesagt Expat und da dieser stream-orientiert arbeitet, kannst du dir ElementTree ableiten und in die Feed-Methode entsprechende Funktionalitäten zur steuerung der zu parsenden Datenmenge einbauen. (Also bevor du den eigentlichen Feed-Call zur Basisklasse machst.)
hast du python in der tasche,hast du immer was zum nasche...
Benutzeravatar
nkoehring
User
Beiträge: 543
Registriert: Mittwoch 7. Februar 2007, 17:37
Wohnort: naehe Halle/Saale
Kontaktdaten:

@rezeptor: Hmm... das klingt ja nett, aber wie soll man das denn anstellen? Haettest du da ein kurzes Beispiel?
[url=http://www.python-forum.de/post-86552.html]~ Wahnsinn ist auch nur eine andere Form der Intelligenz ~[/url]
hackerkey://v4sw6CYUShw5pr7Uck3ma3/4u7LNw2/3TXGm5l6+GSOarch/i2e6+t2b9GOen7g5RAPa2XsMr2
Antworten