Das deutsche Python-Forum

Corpa

Hallo zusammen, bin derzeit auf der Suche nach einer PySpark Lösung für folgenden Code: import pandas as pd df_data = {'A': ['foo', 'foo', 'bar'], 'B': [3, 3, 5], 'C': ['Montag', 'Dienstag', 'Montag']} df = pd.DataFrame(data=df_data) df = df.drop_duplicates(subset=['A', 'B'], keep=False) A B C 2 bar...

Corpa

@sirius, kbr Vielen lieben Dank! Auf Eure eingebrachten Ideen bin ich so erstmal nicht gekommen.. Liegt vielleicht auch an der mangelnden Erfahrung in diesem Fall. Die Set Lösung passt, auch bei der zu berechnenden Menge an Daten. Den Code von Sirius habe ich einmal angepasst und zwei kleine Fehler ...

Corpa

@kbr, Sirius Vielen Dank für die schnelle Antwort. Die Spalte i habe ich rein zur Übersicht eingefügt. In der realen Datei gibt es diese natürlich nicht. Daher einmal die Übersicht angepasst. file_1.csv Datum;Typ;Anzahl;Charge 2018-01-01;Mutter;3;666 2018-01-01;Schraube;3;0815 2018-01-01;Nagel;3;081...

Corpa

Hallo Leute! für einen, für mich als Python-Anfänger, "kniffligen Fall" benötige ich einmal Eure Ideen.. Ausgangspunkt sind zwei unsortierte CSV Files mit je ca. 1000k Lines , die Referenzierung erfolgt durch den Abgleich von Typ und Charge (siehe file_3.csv).. file_1.csv i;Datum;Typ;Anzah...

Die Suche ergab 4 Treffer

Pandas/PySpark drop_duplicates

Re: Vergleich zweier CSV-Files

Re: Vergleich zweier CSV-Files

Vergleich zweier CSV-Files