Die Suche ergab 4 Treffer
- Samstag 5. Januar 2019, 11:43
- Forum: Allgemeine Fragen
- Thema: Pandas/PySpark drop_duplicates
- Antworten: 0
- Zugriffe: 718
Pandas/PySpark drop_duplicates
Hallo zusammen, bin derzeit auf der Suche nach einer PySpark Lösung für folgenden Code: import pandas as pd df_data = {'A': ['foo', 'foo', 'bar'], 'B': [3, 3, 5], 'C': ['Montag', 'Dienstag', 'Montag']} df = pd.DataFrame(data=df_data) df = df.drop_duplicates(subset=['A', 'B'], keep=False) A B C 2 bar...
- Donnerstag 1. März 2018, 18:14
- Forum: Allgemeine Fragen
- Thema: Vergleich zweier CSV-Files
- Antworten: 8
- Zugriffe: 3451
Re: Vergleich zweier CSV-Files
@sirius, kbr Vielen lieben Dank! Auf Eure eingebrachten Ideen bin ich so erstmal nicht gekommen.. Liegt vielleicht auch an der mangelnden Erfahrung in diesem Fall. Die Set Lösung passt, auch bei der zu berechnenden Menge an Daten. Den Code von Sirius habe ich einmal angepasst und zwei kleine Fehler ...
- Montag 26. Februar 2018, 19:45
- Forum: Allgemeine Fragen
- Thema: Vergleich zweier CSV-Files
- Antworten: 8
- Zugriffe: 3451
Re: Vergleich zweier CSV-Files
@kbr, Sirius Vielen Dank für die schnelle Antwort. Die Spalte i habe ich rein zur Übersicht eingefügt. In der realen Datei gibt es diese natürlich nicht. Daher einmal die Übersicht angepasst. file_1.csv Datum;Typ;Anzahl;Charge 2018-01-01;Mutter;3;666 2018-01-01;Schraube;3;0815 2018-01-01;Nagel;3;081...
- Sonntag 25. Februar 2018, 13:03
- Forum: Allgemeine Fragen
- Thema: Vergleich zweier CSV-Files
- Antworten: 8
- Zugriffe: 3451
Vergleich zweier CSV-Files
Hallo Leute! für einen, für mich als Python-Anfänger, "kniffligen Fall" benötige ich einmal Eure Ideen.. Ausgangspunkt sind zwei unsortierte CSV Files mit je ca. 1000k Lines , die Referenzierung erfolgt durch den Abgleich von Typ und Charge (siehe file_3.csv).. file_1.csv i;Datum;Typ;Anzah...