Umbrüche werden in XML geschrieben

Jimyx · Mittwoch 4. September 2013, 13:15

Hallo zusammen,
ich habe da ein Problem beim erzeugen einer XML-Datei. Ich erzeuge eine XML-Datei mit lxml. Hier ist der Quelltext:

Code: Alles auswählen

        root = etree.Element("search", attrib={"id":"1"}) 
        results= etree.Element('results') 
        country= etree.Element('country')
        country.text = 'Germany'
        root.append(country)

        output_file = "C:/xmltestthing.xml"
        file = open(output_file,"w")
        t = etree.tostring(root, pretty_print=True, xml_declaration=True, encoding='UTF-8')
        t = str(t)
        file.write(t)
        file.close()

Es kommt folgende XML raus:

Code: Alles auswählen

b'<?xml version=\'1.0\' encoding=\'UTF-8\'?>\n<search id="1">\n  <country>Germany</country>\n</search>\n'

Warum werden die Umbrüche nicht durchgeführt sondern nur mit \n dargestellt ? Wie bekomme ich das Problem in den Griff ? Ich habe es zuvor mit minidom probiert aber dort hatte ich auch das Problem, dass nach .toprettyxml('encoding="utf-8"') die Umbrüche so dargestellt wurden. Ich hatte gehofft, dass es sich dabei um einen Fehler in der Methode handelt. Leider konnte ich im Netz keine guten Infos hierzu finden. Erreichen möchte ich, dass im Header der XML nicht nur die Version, sondern auch das encoding="" steht.

Beste Grüße

Jimyx

/me · Mittwoch 4. September 2013, 13:47

Der Code läuft bei mir einwandfrei (Anmerkung: ich verwende grundsätzlich Unicode-Strings).

Wofür soll eigentlich das t = str(t) gut sein?

Jimyx · Mittwoch 4. September 2013, 13:51

Hi,
bekommst du die Ausgabe in Pretty Print ?

Wenn ich das nicht in einen String wandel, meckert er bei file.write(t), dass er einen String und keinen Byte will.

Schön finde ich das aber auch nicht.

Beste Grüße

Jimyx

/me · Mittwoch 4. September 2013, 13:54

Jimyx hat geschrieben:Wenn ich das nicht in einen String wandel, meckert er bei file.write(t), dass er einen String und keinen Byte will.

Welche Python-Version verwendest du?

Jimyx · Mittwoch 4. September 2013, 13:55

/me · Mittwoch 4. September 2013, 13:58

Jimyx hat geschrieben:3.3

Tja, dann ist es klar. Lass die Umwandlung mit str weg und öffne stattdessen die Datei passend. Aktuell öffnest du sie mit "w" zum Schreiben im Textmodus, was du brauchst ist aber das Schreiben von Bytes mit "wb".

Jimyx · Mittwoch 4. September 2013, 14:03

Super du hast mir geholfen!

Nun wird alles richtig dargestellt.

Besten dank !

/me · Mittwoch 4. September 2013, 14:16

Jimyx hat geschrieben:Nun wird alles richtig dargestellt.

Die Unterschiede zwischen Text (Unicode) und Byte sind ein langes Thema und es sind schon Massen an Entwicklern darüber gefallen.

Wichtig ist: Intern im Programm hast du (seit Python 3.0) Texte als Unicode-Objekte vorliegen. Unicode ist keine Zeichencodierung, Unicode ist erst einmal nur ein Konzept. Wenn die Daten nach außen (Speicher, Netz, ...) gehen sollen, dann müssen diese Texte codiert werden. Typischerweise nimmt man als Codierung UTF-8, aber es sind auch andere Codierungen wie ISO-8859-15 denkbar. Diese Umwandlung macht man entweder selber oder irgendeine API erledigt das für einen (wie hier lxml.etree._Element.tostring). Beim Einlesen von Daten muss man den umgekehrten Weg gehen.

Code: Alles auswählen

>>> 'Ärger'
'Ärger'
>>> 'Ärger'.encode('UTF-8')
b'\xc3\x84rger'
>>> b'\xc3\x9cbel'.decode('UTF-8')
'Übel'

Natürlich muss man zum Codieren und Decodieren die gleiche Codierung nehmen, sonst gibt's ... sieh selbst:

Code: Alles auswählen

>>> b'\xc3\x84rger'.decode('ISO-8859-1')
'Ã\x84rger'