Die Suche ergab 4 Treffer

von Corpa
Samstag 5. Januar 2019, 11:43
Forum: Allgemeine Fragen
Thema: Pandas/PySpark drop_duplicates
Antworten: 0
Zugriffe: 718

Pandas/PySpark drop_duplicates

Hallo zusammen, bin derzeit auf der Suche nach einer PySpark Lösung für folgenden Code: import pandas as pd df_data = {'A': ['foo', 'foo', 'bar'], 'B': [3, 3, 5], 'C': ['Montag', 'Dienstag', 'Montag']} df = pd.DataFrame(data=df_data) df = df.drop_duplicates(subset=['A', 'B'], keep=False) A B C 2 bar...
von Corpa
Donnerstag 1. März 2018, 18:14
Forum: Allgemeine Fragen
Thema: Vergleich zweier CSV-Files
Antworten: 8
Zugriffe: 3451

Re: Vergleich zweier CSV-Files

@sirius, kbr Vielen lieben Dank! Auf Eure eingebrachten Ideen bin ich so erstmal nicht gekommen.. Liegt vielleicht auch an der mangelnden Erfahrung in diesem Fall. Die Set Lösung passt, auch bei der zu berechnenden Menge an Daten. Den Code von Sirius habe ich einmal angepasst und zwei kleine Fehler ...
von Corpa
Montag 26. Februar 2018, 19:45
Forum: Allgemeine Fragen
Thema: Vergleich zweier CSV-Files
Antworten: 8
Zugriffe: 3451

Re: Vergleich zweier CSV-Files

@kbr, Sirius Vielen Dank für die schnelle Antwort. Die Spalte i habe ich rein zur Übersicht eingefügt. In der realen Datei gibt es diese natürlich nicht. Daher einmal die Übersicht angepasst. file_1.csv Datum;Typ;Anzahl;Charge 2018-01-01;Mutter;3;666 2018-01-01;Schraube;3;0815 2018-01-01;Nagel;3;081...
von Corpa
Sonntag 25. Februar 2018, 13:03
Forum: Allgemeine Fragen
Thema: Vergleich zweier CSV-Files
Antworten: 8
Zugriffe: 3451

Vergleich zweier CSV-Files

Hallo Leute! für einen, für mich als Python-Anfänger, "kniffligen Fall" benötige ich einmal Eure Ideen.. Ausgangspunkt sind zwei unsortierte CSV Files mit je ca. 1000k Lines , die Referenzierung erfolgt durch den Abgleich von Typ und Charge (siehe file_3.csv).. file_1.csv i;Datum;Typ;Anzah...