ich stehe for folgendem Problem. Aus einer Datenbank lese ich mittels eines Skripts gefilterte Daten als .csv aus, welche ich nun mittels Python weiter aufbereiten möchte. Leider bin ich kein versierter Programmierer, daher mein Post.
Die .csv besteht aus ca 500000 Zeilen, mit einer Headerzeile für die Spaltenbezeichnungen (zwischen 5 bis 12 Spalten) und den dann folgenden Werten. Nun möchte ich allerdings die meisten Zeilen löschen, welche an irgendeiner Stelle innerhalb jeder Zeile den Wert "nan" stehen hat.
Die übrig bleibenden Zeilen sollen dann nach 2 Merkmalen (also 2 der Spalten) eine Matrix aufspannen und die Häufigkeiten über diese 2 Merkmale zählen (eine Art Zählschleife für jede mögliche Kombination der 2 Merkmale)
Bisher bin leider nur soweit gekommen, dass ich die Datei eingelesen habe mit:
Code: Alles auswählen
f = open("datei.csv")
zeilen = f.readlines()
f.close()
Ich vermute es müsste irgendwie so aussehen:
Code: Alles auswählen
for zeile in zeilen:
for index in zeile:
if index == "nan":
del zeilen[zeile]
else:
continue
Viele Grüße
Larusso