Seite 1 von 1

unstrukturierte CSV-Datei neu ordnen

Verfasst: Dienstag 8. August 2017, 13:48
von uschmidt
Hallo zusammen,

ich habe eine CSV-Datei mit Tweets, die wie folgt aufgebaut ist:

Zeitstempel1 | Thema| Zeitstempel2| User | Tweet| AnzahlRetweets | Ort

Sie besteht also aus sieben Spalten jeweils getrennt durch ein "|". Um die Datei einzulesen, benutze ich folgenden Code:

Code: Alles auswählen

import pandas as pd

tweets = pd.read_csv('tweets.csv', sep='|')
und bekomme diese Fehlermeldung:
ParserError: Error tokenizing data. C error: Expected 8 fields in line 230, saw 9
Wenn ich die Datei nun mit Excel öffne, ist diese teilweise komplett durcheinander und Samples erstrecken sich über mehrere Zeilen:

http://imgur.com/a/JVecS

Nun meine Frage: kann das der Grund dafür sein, dass ich Probleme beim Einlesen der Datei in Python habe oder liegt diese unstrukturierte Darstellung evtl. an Excel? Und sofern es an der Datei liegt: gibt es eine Möglichkeit, die Datei neu zu strukturieren sodass diese keine Probleme mehr verursacht?

Danke schon mal!

Re: unstrukturierte CSV-Datei neu ordnen

Verfasst: Dienstag 8. August 2017, 13:57
von BlackJack
@uschmidt: Der Screenshot von Excel sieht so aus als hättest Du dort nicht gesagt das der Trenner das |-Zeichen ist.

Laut Pandas-Meldung scheint es 8 Spalten zu geben und nicht 7, und in Zeile 230 dann 9.