Das deutsche Python-Forum

Hi,

ich hab hier 2 verschiedene Quellen für einen utf-8 String, es wird beides Mal "Müller" geliefert:
'Mu\xcc\x88ller' und 'M\xfcller'

Das sind wohl 2 grundsätzlich verschiedene Darstellung von Umlauten in utf-8, einmal "direkt" und einmal als "Grundbuchstabe plus Pünktchen"

Nun würde ich die beiden gern auf Gleichheit testen und die beiden Darstellungen sollen natürlich gleich sein, gibt es dafür was fertiges oder muss ich das "zu Fuß" machen und die Darstellungen rausparsen?

Das Stichwort heißt "Normalform":

Code: Alles auswählen

import unicodedata
mueller = unicodedata.normalize('NFC', 'Mu\xcc\x88ller'.decode('utf8'))

@mcdwerner: Schau Dir mal die Normalisierungsfunktionen im `unicodedata`-Modul an.

vielen Dank ihr 2, funktioniert bestens

Das deutsche Python-Forum

ü u\xcc\x88 und ü \xfc in utf-8 auf Gleichheit testen

ü u\xcc\x88 und ü \xfc in utf-8 auf Gleichheit testen

Re: ü u\xcc\x88 und ü \xfc in utf-8 auf Gleichheit testen

Re: ü u\xcc\x88 und ü \xfc in utf-8 auf Gleichheit testen

Re: ü u\xcc\x88 und ü \xfc in utf-8 auf Gleichheit testen