CSV Dateien 'Normieren'
Verfasst: Montag 23. Januar 2023, 13:17
Hallo zusammen,
Ich habe zwar schon mit CSV Dateien in Python gearbeitet, jedoch stehe ich gerade vor einem Problem bei dem ich Hilfe gebrauchen könnte.
Ich habe ein Verzeichnis mit mehreren CSV Dateien, welche Prinzipiell gleich Aufgebaut sind jedoch in verschiedenen 'Dialekten'
Aufbau 1;
Delimiter = ';'
enthält Leere Zeilen und arbeitet mit subsets. Headrow eines subsets endet mit ';' nach dem letzten Wert der Zeile, Datenzeilen enden mit einem \n
es sind nur so viele Columns wie nötig pro subset angelegt.
Aufbau 2:
Delimiter =';'
es sind immer 95 delimiter pro zeile eingefügt und je nach bedarf ausgefüllt oder NA. Kopfzeilen Formatierung ist nicht zu erkennen.
Frage 1: Ist es möglich die Dateien zu normieren oder auf gleiche weise einzulesen? Ich konnte dafür keinen Dialect herausfinden.
Jede Datei, egal ob vom Aufbau 1 oder 2 hat die Gleiche Struktur.
Subset[0] ist der Datei Kopf (Name, Artikel, Datum etc.)
Subset[1-3] sind erstmal irrelevante Informationen. Und subset[4-x] wären relevant. Jedoch nur die letzten 3. Wie am x zu erkennen sind die letzten Subsets unterschiedlich viele. das kann von 1 bis 25 gehen.
Ich würde gerne die subsets seperieren und mit diesen getrennt arbeiten. Ist das möglich ? mit pandas bzw. dem nativen csv modulen kam ich da bisher auf keinen grünen zweig.
Frage 2: Gibt es eine Methode dateien mit subsets Automatisiert zu unterteilen ?
Ich danke schonmal vielmals für eure Hilfe. Ich bin mir bewusst dass es sicherlich hilfreich wäre eine solche .csv zu veröffentlichen, jedoch ist das nicht ohne weiteres möglich.
Deshalb bin ich auch für jede Gegenfrage offen und dankbar um jegliche Hilfe.
VG Niklas
Ich habe zwar schon mit CSV Dateien in Python gearbeitet, jedoch stehe ich gerade vor einem Problem bei dem ich Hilfe gebrauchen könnte.
Ich habe ein Verzeichnis mit mehreren CSV Dateien, welche Prinzipiell gleich Aufgebaut sind jedoch in verschiedenen 'Dialekten'
Aufbau 1;
Delimiter = ';'
enthält Leere Zeilen und arbeitet mit subsets. Headrow eines subsets endet mit ';' nach dem letzten Wert der Zeile, Datenzeilen enden mit einem \n
es sind nur so viele Columns wie nötig pro subset angelegt.
Aufbau 2:
Delimiter =';'
es sind immer 95 delimiter pro zeile eingefügt und je nach bedarf ausgefüllt oder NA. Kopfzeilen Formatierung ist nicht zu erkennen.
Frage 1: Ist es möglich die Dateien zu normieren oder auf gleiche weise einzulesen? Ich konnte dafür keinen Dialect herausfinden.
Jede Datei, egal ob vom Aufbau 1 oder 2 hat die Gleiche Struktur.
Subset[0] ist der Datei Kopf (Name, Artikel, Datum etc.)
Subset[1-3] sind erstmal irrelevante Informationen. Und subset[4-x] wären relevant. Jedoch nur die letzten 3. Wie am x zu erkennen sind die letzten Subsets unterschiedlich viele. das kann von 1 bis 25 gehen.
Ich würde gerne die subsets seperieren und mit diesen getrennt arbeiten. Ist das möglich ? mit pandas bzw. dem nativen csv modulen kam ich da bisher auf keinen grünen zweig.
Frage 2: Gibt es eine Methode dateien mit subsets Automatisiert zu unterteilen ?
Ich danke schonmal vielmals für eure Hilfe. Ich bin mir bewusst dass es sicherlich hilfreich wäre eine solche .csv zu veröffentlichen, jedoch ist das nicht ohne weiteres möglich.
Deshalb bin ich auch für jede Gegenfrage offen und dankbar um jegliche Hilfe.
VG Niklas