Und, ist es mit Minidom zu langsam für dich?droptix hat geschrieben:Na, gehen wir mal davon aus, dass in <!-- BIG data --> wirklich zu große Daten stehen, also nehmen wir ruhig 10.000 bis 50.000 Zeilen an.
große XML häppchenweise einlesen
-
- Python-Forum Veteran
- Beiträge: 16025
- Registriert: Freitag 20. Juni 2003, 16:30
- Kontaktdaten:
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
Nun ja, die Geschwindigkeit hab ich noch gar nicht gemessen, nur gefühlt dauert das schon sehr lange. Aber den Speicherverbrauch hab ich gemessen, und der explodiert mit minidom gewaltig. Eine XML-Datei mit gut 20.000 Zeichen ist so um die 1,5 MB groß. Beim Einlesen werden ca. 90 MB Arbeitsspeicher benötigt. Das ist recht heftig.
-
- Python-Forum Veteran
- Beiträge: 16025
- Registriert: Freitag 20. Juni 2003, 16:30
- Kontaktdaten:
Ok, das ist nun endlich mal etwas handfestes. Also kannst du mal das mit SAX implementieren und gucken, wie es im Vergleich dazu abschneidet.
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
Ich würde zu ElementTree greifen. Das Modul benutzt ja wie bereits gesagt Expat und da dieser stream-orientiert arbeitet, kannst du dir ElementTree ableiten und in die Feed-Methode entsprechende Funktionalitäten zur steuerung der zu parsenden Datenmenge einbauen. (Also bevor du den eigentlichen Feed-Call zur Basisklasse machst.)
hast du python in der tasche,hast du immer was zum nasche...
- nkoehring
- User
- Beiträge: 543
- Registriert: Mittwoch 7. Februar 2007, 17:37
- Wohnort: naehe Halle/Saale
- Kontaktdaten:
@rezeptor: Hmm... das klingt ja nett, aber wie soll man das denn anstellen? Haettest du da ein kurzes Beispiel?
[url=http://www.python-forum.de/post-86552.html]~ Wahnsinn ist auch nur eine andere Form der Intelligenz ~[/url]
hackerkey://v4sw6CYUShw5pr7Uck3ma3/4u7LNw2/3TXGm5l6+GSOarch/i2e6+t2b9GOen7g5RAPa2XsMr2
hackerkey://v4sw6CYUShw5pr7Uck3ma3/4u7LNw2/3TXGm5l6+GSOarch/i2e6+t2b9GOen7g5RAPa2XsMr2