Japanisches CSV File einlesen

SeriousRuffy · Montag 9. Februar 2015, 13:42

Hallo zusammen,

würde gerne eine japanisches csv File in Python einlesen. Habe es zuerst so versucht:

import csv
import re

lesdatei = open("Japanese.csv", "r")
liste = lesdatei.readlines()

for row in liste[1:]:
    felder = re.split(",|;", row)
    print(str(felder[10]))

Response dazu ist:

Code: Alles auswählen

????
Hokkaido
???????????
???????????
???????????
???????????
???????????
???????????
???????????
???????????
???????????
No Data
No Data
No Data
No Data

Da es nicht alle Ergebnisse richtig anzeigt, habe ich es versucht in UTF-8 umzuwandeln:

Code: Alles auswählen

# -*- coding: utf-8 -*-
import csv
import re

lesdatei = open("Japanese.csv", "r", encoding="utf-8")


liste = lesdatei.readlines()

for row in liste[1:]:
    felder = re.split(",|;", row)
    print(str(felder[10]))

Bekomme hier als Response zurück:

Code: Alles auswählen

Traceback (most recent call last):
  File "C:/Users/khein/PycharmProjects/untitled1/Japanese", line 10, in <module>
    liste = lesdatei.readlines()
  File "C:\Python34\lib\codecs.py", line 313, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 6165: invalid start byte

Könnt ihr mir Tipps geben, wie ich weiter machen kann? Danke fü euer Feedback:)

BlackJack · Montag 9. Februar 2015, 13:58

@SeriousRuffy: Bei kodierten Textdateien bei denen die Kodierung nicht irgendwo als Metadaten gespeichert ist, muss man die Kodierung entweder kennen, oder man muss sie raten. Mehr kann man da nicht machen. Frag den der die Datei erzeugt hat welche Kodierung er dafür verwendet hat.

Hyperion · Montag 9. Februar 2015, 14:02

Ich würde als erstes das ``csv``-Modul für das Einlesen von CSV-Dateien nutzen!

Als nächstes kommt die Frage, ob die Datei wirklich auch UTF-8 codiert ist? Die Fehlermeldung sagt ja "nein"

Ein Aufruf von ``print`` auf einem System, bei dem der Unicode-String nicht in das Default-Encoding gewandelt werden kann, dürfte Dir dann auch einen ``UnicodeEncodeError`` bescheren... das dürfte auf so ziemlich jedem westlichen Windows der Fall sein, wenn Du japanische Schriftzeichen ausgeben willst...

SeriousRuffy · Dienstag 10. Februar 2015, 11:17

Danke für euer Feedback.

Habe den Delimiter geändert. Nun funktioniert es.

Code: Alles auswählen

# -*- coding: utf-8 -*-
import csv
import re


lesdatei = open("Japanese.csv", "r")


liste = lesdatei.readlines()

for row in liste[1:]:
    felder = re.split(";", row)
    print(str(felder[10]))

BlackJack · Dienstag 10. Februar 2015, 11:39

@SeriousRuffy: Das halte ich für sehr unwahrscheinlich das *diese* Änderung das Problem gelöst hat.