ich habe ein Problem mit JSON in Verbindung mit UTF-8, zumindest scheint es mit UTF-8 zu sein.
Es werden manche Zeichen nicht sauber decodiert, bzw. so von json interpretiert das es ein ungültiges JSON ist.
Der entsprechende kritische Abschnitt im JSON sieht wie folgt aus:
Code: Alles auswählen
"language" : "rf ",
"rating" : "unknown"
},
{
"language" : "ise",
"rating" : "unknown"
},
{
"language" : "N´^Q",
"rating" : "unknown"
},
{
"language" : "eu^@",
"rating" : "unknown"
},
{
"language" : "^Eti",
"rating" : "unknown"
},
Python sieht folgendes jedoch (ich zeige hier nur die von json.loads bemängelten Bereiche):
Code: Alles auswählen
"language" : " "F",
"rating" : "unknown",
...
language" : "u\",
"rating" : "unknown",
...
"language" : "�"@",
"rating" : "unknown"
Code: Alles auswählen
decoded_json_stream = stream_content.decode(encoding='UTF-8', errors='replace')
datastream = json.loads(decoded_json_stream, strict=False)
Ich denke das es ein Problem mit dem Encoding ist, denn das ursprüngliche JSON ist noch korrekt, bis auf das diverse Zeichen nicht korrekt dargestellt werden. Doch die Interpretation in Python ist dann leider jedoch fehlerhaft.
Weiß jemand eine Lösung das json.loads nicht mehr fehl schlägt, und idealerweise das Encodingproblem auch gelöst wird?
danke im voraus
blubbersuelze
