Wie entfernt man Problemzeichen aus einem Bytestring?

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
rhersel
User
Beiträge: 105
Registriert: Mittwoch 3. Dezember 2008, 11:29

Ich habe folgenden String: "Wer hätte das ge�dacht", bzw. als Bytestring: "Wer h\xc3\xa4tte das ge\xef\xbf\xbddacht". Das inverse Fragezeichen führt in einer Anwendung zum Absturz weshalb ich es herausfiltern muss ohne dass z.B. die Umlaute beeinträchtigt werden". Das Ergebnis soll z.B. so aussehen: "Wer hätte das gedacht" oder so ""Wer hätte das ge?dacht". Wie kann ich das machen?

Wäre das eine Lösung: decode("utf-8") führt zu einem '�' = '\ufffd' anstatt '\xef\xbf\xbd'
BlackJack

@rhersel: In Unicode das Zeichen heraus filtern könnte in der Tat eine Lösung sein.
Benutzeravatar
mkesper
User
Beiträge: 919
Registriert: Montag 20. November 2006, 15:48
Wohnort: formerly known as mkallas
Kontaktdaten:

Noch eine ganz andere Frage wäre, wo der Müll überhaupt herkommt. Sowas entsteht oft durch doppelte Konvertierung nach utf-8.
Antworten