groupby.agg()

lambkin · Samstag 16. Juni 2018, 19:10

Mein Dataframe:
Projektnr | Teilprojektnr | Abteilung | Mitarbeiter |
1 | a | A | 1
1 | a | B | 1
1 | a | C | 2
1 | b | A | 1
1 | b | B | 1
2 | c | A | 3

Mein Ziel:
Projektnr | Anzahl Teilprojektnur | Anzahl Abteilungen | max Mitarbeiter
1 | 2 | 5 | 2
2 | 1 | 1 | 3

Ich möchte als alle gleichen Projektnummern gruppieren, in der zweiten Spalte die Anzahl! der unterschiedlichen Teilprojektnummern ausgeben,
dann die Anzahl der Abteilungen(hier kann ich einfach durchzählen, da die Anzahl der Beauftragungen relevant ist und es keine Rolle spielt, ob es mehrmals die selbe Abteilung ist) und zuletzt die max. Anzahl an Mitarbeitern (hier möchte ich tatsächlich nur den höchsten Wert).
Schwierigkeiten macht mir nun die zweite Spalte. Wie kann ich denn prüfen, wie viele unterschiedliche Teileprojektnr. ich zu einer Projektnr habe.
Ein erster Gedanke wäre jetzt eine funktion schreiben mit if, else und einem counter. Allerdings wüsste ich jetzt gar nicht wie ich zeilenweise vergleichen soll.
Gibt es eine elegantere Lösung?

Bisher habe ich folgendes:

Code: Alles auswählen

gruppiert = df.groupby("Projektnr").agg({"Abteilung":["count"], "Mitarbeiter":["max"]})

Piet Lotus · Sonntag 17. Juni 2018, 16:25

Hallo lambkin,
ich bin auf dem Gebiet jetzt nicht so der Spezialist, aber vielleicht kannst du über die "groups" iterieren und dann die Teilprojektnummern zählen?
Also etwa sinngemäß folgendes:

Code: Alles auswählen

gruppiert = df.groupby(['Projektnummer'])
for name, group in gruppiert:
    zeile = name,'|',len(group['Teilprojektnummer'].unique()),'|',group['Abteilung'].agg('count'),'|',group['Mitarbeiter'].agg('max')
    print(zeile)

=>
('1', '|', 2, '|', 5, '|', 2)
('2', '|', 1, '|', 1, '|', 3)
Vielleicht hilft's ja weiter

Viele Grüße
Piet Lotus

lambkin · Montag 18. Juni 2018, 13:25

Danke, die Ausgabe ist tatsächlich so, wie ich sie gerne hätte! Aber kann ich die Ausgabe auch in einen Dataframe packen?
So dass alle Werte also gleich in einen neuen Dataframe gespeichert werden. Denn ich würde ja gerne mit den Werten weiterarbeiten.
Sorry, ich bin noch Anfängern und habe leider keine Infos dazu selber gefunden.

Piet Lotus · Mittwoch 20. Juni 2018, 14:49

Hallo lambkin,
klar kannst du das Ergebnis auch wieder in einen Dataframe packen. Wie hast du denn dein ursprüngliches Dataframe erzeugt?
Du könntest dort wo "mein" print-Befehl steht natürlich auch eine Liste oder ein Dictionary befüllen und am Ende der Iteration über die groups damit dann ein Dataframe erzeugen.
Viele Grüße
Piet Lotus