ü u\xcc\x88 und ü \xfc in utf-8 auf Gleichheit testen

mcdwerner · Mittwoch 29. Januar 2014, 13:10

Hi,

ich hab hier 2 verschiedene Quellen für einen utf-8 String, es wird beides Mal "Müller" geliefert:
'Mu\xcc\x88ller' und 'M\xfcller'

Das sind wohl 2 grundsätzlich verschiedene Darstellung von Umlauten in utf-8, einmal "direkt" und einmal als "Grundbuchstabe plus Pünktchen"

Nun würde ich die beiden gern auf Gleichheit testen und die beiden Darstellungen sollen natürlich gleich sein, gibt es dafür was fertiges oder muss ich das "zu Fuß" machen und die Darstellungen rausparsen?

Sirius3 · Mittwoch 29. Januar 2014, 13:38

Das Stichwort heißt "Normalform":

Code: Alles auswählen

import unicodedata
mueller = unicodedata.normalize('NFC', 'Mu\xcc\x88ller'.decode('utf8'))

BlackJack · Mittwoch 29. Januar 2014, 13:38

@mcdwerner: Schau Dir mal die Normalisierungsfunktionen im `unicodedata`-Modul an.

mcdwerner · Mittwoch 29. Januar 2014, 13:49

vielen Dank ihr 2, funktioniert bestens