bin derzeit auf der Suche nach einer PySpark Lösung für folgenden Code:
Code: Alles auswählen
import pandas as pd
df_data = {'A': ['foo', 'foo', 'bar'],
'B': [3, 3, 5],
'C': ['Montag', 'Dienstag', 'Montag']}
df = pd.DataFrame(data=df_data)
df = df.drop_duplicates(subset=['A', 'B'], keep=False)
Code: Alles auswählen
A B C
2 bar 5 Montag
Code: Alles auswählen
drop_duplicates(subset=['A', 'B'], keep=False)
Kleine Einschränkung: Die Umwandlung vom PySpark Dataframe in ein Pandas Dataframe ist bedingt der Größe nicht möglich (spark.driver.maxResultSize) .
Besten Dank im Voraus!