Panda Dataset verändern

TuxuT · Montag 28. November 2016, 10:46

Hallo Gemeinde.

Mit Panda lese ich derzeit eine CSV Datei ein.

dataset = pandas.read_csv(datafile, sep=";", header=0, encoding="utf8")

Das läuft auch soweit super. Allerdings müsste ich die Daten der 1. Spalte vom DataSet nachträglich verändern.
Dort stehen untereinander Zeitstempel der Form YYYYMMDD_HHMM.

Ich müsste in der Spalte jetzt den Datumpräfix löschen, so dass nur noch die Uhrzeit (HHMM) dort steht.

Wie greife ich jetzt elegant auf die Spalte zu, so dass ich über dessen Zeilen iterieren kann und einen Substring machen kann?

Herzlichen Dank!

BlackJack · Montag 28. November 2016, 11:56

@TuxuT: Selber iterieren und Pandas beziehungsweise Numpy und elegant ist in der Regel ein Widerspruch. Lass Dir die Spalte geben, dann hast Du ein `Series`-Objekt, und das hat ein `str`-Attribut das wiederum eine Menge Zeichenkettenmethoden enthält die man auf einen Schlag auf alle Werte anwenden kann. Da die Präfixe die Du entfernen möchtest alle gleich lang sind, bietet sich `slice()` an.

Die Dokumentation hat einen Abschnitt „Working with Text Data“.

Vielleicht möchte man das aber auch gar nicht mehr nach dem einlesen machen, sondern schon beim einlesen und dann auch nicht als Zeichenkette sondern als Zahlenwert speichern.

Edit: Und eventuell ist das auch gar keine normale Spalte, sondern sollte der Index sein/werden‽