Pandas/PySpark drop_duplicates

Corpa · Samstag 5. Januar 2019, 11:43

Hallo zusammen,

bin derzeit auf der Suche nach einer PySpark Lösung für folgenden Code:

import pandas as pd

df_data = {'A': ['foo', 'foo', 'bar'], 
             'B': [3, 3, 5],
             'C': ['Montag', 'Dienstag', 'Montag']}
df = pd.DataFrame(data=df_data)
df = df.drop_duplicates(subset=['A', 'B'], keep=False)

Code: Alles auswählen

     A  B       C
2  bar  5  Montag

Primär geht es um das gesamte Löschen von Duplikaten (keep=False), also...

Code: Alles auswählen

drop_duplicates(subset=['A', 'B'], keep=False)

PySpark bietet die keep Option leider nicht an. Gibt es dafür eine Alternative?

Kleine Einschränkung: Die Umwandlung vom PySpark Dataframe in ein Pandas Dataframe ist bedingt der Größe nicht möglich (spark.driver.maxResultSize)

.

Besten Dank im Voraus!