CSV-Modul Error; Ansprache einzelner Elemente

PhantomWorks · Samstag 25. April 2009, 11:25

Hallo zusammen!

Ich bin gerade dabei eine große CSV Datei (60MB; 1.050.000 Zeilen, 1 Spalte) mit dem csv Modul zu importieren, doch ich erhalte stets folgenden Error: "_csv.Error: field larger than field limit"

Anscheined ist das File zu groß für das Modul. Wie kann ich dies umgehen?

Wenn mir dann mit Eurer Hilfe einmal der Import geglückt ist, ist die nächste Frage wie ich einzelne Elemente gezielt ansprechen kann. Diese ein Spalte der CSV enthält drei Dinge: Wert1, Wert2, Wert3
MEine Idee war nun aus diesen ein Dictionary zu erzeugen mit Wert1 als Schlüssel und den anderen beiden als Werten. Da die 3 Elemente aber weder (wie in meinen bisherigen Fällen) Spaltenbezeichner haben (Stehen alle in einer Spalte) und nur durch Komma voneinander getrennt sind, frage ich mich wie ich daraus ein Dict nach bekanntem Muster erstellen kann und ich im Anschluss daran noch einzelne Werte gezielt ansprechen kann.

Bisheriges Vorgehen war immer folgendermaßen:

Code: Alles auswählen

content = csv.DictReader(open(source_dir + os.sep + 'Test.csv', 'r'), delimiter = ';', quotechar = '|')
data = {}
for line in content:
    data[line ["BezeichnerSpalte1"]] = line

Das Ansprechen der einzelnen Elemente erfolgte so:

Code: Alles auswählen

Wert2 = util.escape(data[BezeichnerSpalte1]["BezeichnerSpalte2"])

Bei diesem Fall jedoch, ohne Spaltenbezeichner und ohne dass die einzelnen Werte in eigenen Spalten stehen, sondern alles durch Komma getrennt in einer Einzigen, bin ich ratlos.

Danke schonmal für Eure Tipps und Hilfestellungen!

Viele Grüße,
Sepp

b.esser-wisser · Samstag 25. April 2009, 11:53

Kannst du mal einen Ausschnitt aus deiner csv-Datei posten?
"...Eine Spalte" und "enthält drei Werte" ergibt nämlich keinen Sinn.
Außerdem gibts csv.reader() - das funktioniert auch ohne Feldnamen.

hth, Jörg

ps.: In der Python-Dokumentation gibt's auch Beispiele zum csv-Modul

Dill · Samstag 25. April 2009, 15:35

hi,

hatte hier noch einen test zu csv rumliegen.
grade mit nem file > 1M zeilen probiert, kein problem.

Code: Alles auswählen

import csv

try: reader = csv.reader(open("test.csv", "r"))
except IOError, e: 
    print "IOError: %s : '%s'" % (e.strerror, e.filename)
    sys.exit(e.errno)
    
for row in reader:
    print row

PhantomWorks · Sonntag 26. April 2009, 09:41

Danke für Deinen Tipp Dill! Der Import funktioniert jetzt und jede Zeile der csv ist jetzt eine Liste.

Es ergibt sich nun folgendes Problem:
Manche der erstellten Listen enthält nun nur 3 Elemente (d.h. row[3] fehlt), andere habe 4 Elemente. Lasse ich das Script nun über die Datei laufen, gibt er mir einen IndexError aus "List index out of range", da ich versuche bei den Listen, die keine row[3] enhalten ein Element anzusprechen das nicht existiert.

Habe versucht es mit einer Ausnahme zu lösen, doch das will irgendwie nicht so ganz funktionieren. Wo liegt in folgendem Code der Fehler begraben?

Code: Alles auswählen

for row in reader:
    w = row[0]
    x = row[1]
    y = row[2]
    z = row[3] # Problem: bereits bei dieser Line bekomme ich bei der     Ausführung des Scripts den o.g. IndexError
    if (z == ""):
        try:
            row[3]
        except IndexError:
            print "Kein Wert verfügbar!"

Mein Ziel ist es, eine nicht existierendes 4. Listenelement einfach zu ignorieren.

Viele Grüße,
Sepp

cofi · Sonntag 26. April 2009, 09:49

Der Fehler ist, dass du nicht den ersten `IndexError` abfängst sondern den 2. und den 2. unnötigerweise konstruierst.
Aber ich seh da ein ganz andres Problem:
Wenn du die Werte an - nichtssagende Namen - zuweist, ensteht beim Zugriff auf `z` ein NameError, bzw greift noch auf das `z` des vorhergehenden Durchlaufs zu.

Arbeite lieber direkt auf der Dateistruktur des Readers und fang die `IndexError` da auf, wo sie entstehen.

Edit: Mir fällt grad auf, dass die sowieso schon ein `NameError` entgegen fliegen kann bei deinem - nicht funktionsfähigen - Code. Auch ist `z` nicht notwendigerweise ein leerer String. Meine Vorschläge gelten aber immernoch

EyDu · Sonntag 26. April 2009, 09:55

Du bekommst schon in der Zeile den Fehler, da du an dieser Stelle bereits versuchst das vierte Element an z zu binden. Das try bedeutet nicht, dass irgend etwas getestet wird, sondern dass ein Fehler ggf. behandelt wird. Du müsstest es also etwa so lösen:

Code: Alles auswählen

for row in reader:
    w = row[0]
    x = row[1]
    y = row[2]

    try:
        z = row[3]
    except IndexError:
        z = ""

Was genau im Falle eines Fehler passieren soll müsstest du deinen Wünschen nach im except-Block anpassen.

Dill · Sonntag 26. April 2009, 11:17

überleg dir mal ob es möglich und dann nicht evtl besser ist für vernünftige eingangsdaten zu sorgen.

statt einem solchen csv:

Code: Alles auswählen

1,2,3
1,2
1,2,3

solltest du besser mit so etwas arbeiten:

Code: Alles auswählen

1,2,3
1,2,
1,2,3

PhantomWorks · Montag 27. April 2009, 18:58

Hallo zusammen!

Erst einmal vielen Dank für Eure Tipps und Lösungsvorschläge. Es hat inzwischen funktioniert und ich konnte die gewünschte Ausgabedatei erzeugen.

Ein super Forum!

Viele Grüße,
Sepp