unstrukturierte CSV-Datei neu ordnen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
uschmidt
User
Beiträge: 14
Registriert: Sonntag 9. April 2017, 15:00

Hallo zusammen,

ich habe eine CSV-Datei mit Tweets, die wie folgt aufgebaut ist:

Zeitstempel1 | Thema| Zeitstempel2| User | Tweet| AnzahlRetweets | Ort

Sie besteht also aus sieben Spalten jeweils getrennt durch ein "|". Um die Datei einzulesen, benutze ich folgenden Code:

Code: Alles auswählen

import pandas as pd

tweets = pd.read_csv('tweets.csv', sep='|')
und bekomme diese Fehlermeldung:
ParserError: Error tokenizing data. C error: Expected 8 fields in line 230, saw 9
Wenn ich die Datei nun mit Excel öffne, ist diese teilweise komplett durcheinander und Samples erstrecken sich über mehrere Zeilen:

http://imgur.com/a/JVecS

Nun meine Frage: kann das der Grund dafür sein, dass ich Probleme beim Einlesen der Datei in Python habe oder liegt diese unstrukturierte Darstellung evtl. an Excel? Und sofern es an der Datei liegt: gibt es eine Möglichkeit, die Datei neu zu strukturieren sodass diese keine Probleme mehr verursacht?

Danke schon mal!
BlackJack

@uschmidt: Der Screenshot von Excel sieht so aus als hättest Du dort nicht gesagt das der Trenner das |-Zeichen ist.

Laut Pandas-Meldung scheint es 8 Spalten zu geben und nicht 7, und in Zeile 230 dann 9.
Antworten