Seite 1 von 1

Wie entfernt man Problemzeichen aus einem Bytestring?

Verfasst: Donnerstag 6. Januar 2011, 14:04
von rhersel
Ich habe folgenden String: "Wer hätte das ge�dacht", bzw. als Bytestring: "Wer h\xc3\xa4tte das ge\xef\xbf\xbddacht". Das inverse Fragezeichen führt in einer Anwendung zum Absturz weshalb ich es herausfiltern muss ohne dass z.B. die Umlaute beeinträchtigt werden". Das Ergebnis soll z.B. so aussehen: "Wer hätte das gedacht" oder so ""Wer hätte das ge?dacht". Wie kann ich das machen?

Wäre das eine Lösung: decode("utf-8") führt zu einem '�' = '\ufffd' anstatt '\xef\xbf\xbd'

Re: Wie entfernt man Problemzeichen aus einem Bytestring?

Verfasst: Donnerstag 6. Januar 2011, 14:44
von BlackJack
@rhersel: In Unicode das Zeichen heraus filtern könnte in der Tat eine Lösung sein.

Re: Wie entfernt man Problemzeichen aus einem Bytestring?

Verfasst: Montag 10. Januar 2011, 10:33
von mkesper
Noch eine ganz andere Frage wäre, wo der Müll überhaupt herkommt. Sowas entsteht oft durch doppelte Konvertierung nach utf-8.