ich habe eine CSV-Datei mit Tweets, die wie folgt aufgebaut ist:
Zeitstempel1 | Thema| Zeitstempel2| User | Tweet| AnzahlRetweets | Ort
Sie besteht also aus sieben Spalten jeweils getrennt durch ein "|". Um die Datei einzulesen, benutze ich folgenden Code:
Code: Alles auswählen
import pandas as pd
tweets = pd.read_csv('tweets.csv', sep='|')
Wenn ich die Datei nun mit Excel öffne, ist diese teilweise komplett durcheinander und Samples erstrecken sich über mehrere Zeilen:ParserError: Error tokenizing data. C error: Expected 8 fields in line 230, saw 9
http://imgur.com/a/JVecS
Nun meine Frage: kann das der Grund dafür sein, dass ich Probleme beim Einlesen der Datei in Python habe oder liegt diese unstrukturierte Darstellung evtl. an Excel? Und sofern es an der Datei liegt: gibt es eine Möglichkeit, die Datei neu zu strukturieren sodass diese keine Probleme mehr verursacht?
Danke schon mal!