Parsen von XML / pretty printing
Verfasst: Samstag 19. März 2011, 12:16
Hallo Forum,
ich möchte gerne einen code beautifier / pretty printer für Docbook XML schreiben.
Der Prozess sähe folgendermassen aus: Input ist ein in einem Standard-Texteditor handgeschriebenes, beliebig formatiertes, aber valides XML-Dokument, welches ein Subset der in Docbook definierten Elemente benutzt. Dieses Dokument wird vom pretty printer geparst und benutzerfreundlich formatiert nach std.out ausgegeben.
Ich habe bereits einen ersten Prototyp geschrieben, indem ich die Klasse HTMLParser aus dem Modul HTMLParser abgeleitet und entsprechend implementiert habe. Die Anregung dazu habe ich dem Buch "Python in a Nutshell" (2. Auflage, 2006) entnommen.
Bin mir jetzt nur nicht ganz sicher, ob ich mit HTMLParser den richtigen Ansatz gewählt habe. Gibt es eventuell zwischenzeitlich ein für meine Zwecke (Parsen von XML) eher geeignetes eventuell aktuelleres Modul/Klasse? Was würdet ihr empfehlen?
VG, beetronic
PS: Ich arbeite auf Ubuntu 10.04 mit Python 2.6.5.
ich möchte gerne einen code beautifier / pretty printer für Docbook XML schreiben.
Der Prozess sähe folgendermassen aus: Input ist ein in einem Standard-Texteditor handgeschriebenes, beliebig formatiertes, aber valides XML-Dokument, welches ein Subset der in Docbook definierten Elemente benutzt. Dieses Dokument wird vom pretty printer geparst und benutzerfreundlich formatiert nach std.out ausgegeben.
Ich habe bereits einen ersten Prototyp geschrieben, indem ich die Klasse HTMLParser aus dem Modul HTMLParser abgeleitet und entsprechend implementiert habe. Die Anregung dazu habe ich dem Buch "Python in a Nutshell" (2. Auflage, 2006) entnommen.
Bin mir jetzt nur nicht ganz sicher, ob ich mit HTMLParser den richtigen Ansatz gewählt habe. Gibt es eventuell zwischenzeitlich ein für meine Zwecke (Parsen von XML) eher geeignetes eventuell aktuelleres Modul/Klasse? Was würdet ihr empfehlen?
VG, beetronic
PS: Ich arbeite auf Ubuntu 10.04 mit Python 2.6.5.