Pandas/PySpark drop_duplicates

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Corpa
User
Beiträge: 4
Registriert: Sonntag 25. Februar 2018, 11:55

Hallo zusammen,

bin derzeit auf der Suche nach einer PySpark Lösung für folgenden Code:

Code: Alles auswählen

import pandas as pd

df_data = {'A': ['foo', 'foo', 'bar'], 
             'B': [3, 3, 5],
             'C': ['Montag', 'Dienstag', 'Montag']}
df = pd.DataFrame(data=df_data)
df = df.drop_duplicates(subset=['A', 'B'], keep=False)

Code: Alles auswählen

     A  B       C
2  bar  5  Montag
Primär geht es um das gesamte Löschen von Duplikaten (keep=False), also...

Code: Alles auswählen

drop_duplicates(subset=['A', 'B'], keep=False)
PySpark bietet die keep Option leider nicht an. Gibt es dafür eine Alternative?

Kleine Einschränkung: Die Umwandlung vom PySpark Dataframe in ein Pandas Dataframe ist bedingt der Größe nicht möglich (spark.driver.maxResultSize) :cry: .


Besten Dank im Voraus!
Antworten