Machine Learning, gleiche ID aggregieren

lambkin · Mittwoch 13. Juni 2018, 11:01

ThomasL · Mittwoch 13. Juni 2018, 14:52

Hört sich prinzipiell nach einem Klassifikationsmodell per Logistic Regression an.
Woran willst du denn versuchen "vorherzusagen" welche Abt./Team "betroffen" ist?
Haben die Aufgaben nur Nummern oder gibt es da noch mehr Parameter, die interessant und bekannt sind? Was ist mit Kosten gemeint?
Haben die Teams spezifische Parameter die interessant wären, etc.
Ein entsprechendes ML Modell würdest du ja mit den vorhandenen Daten trainieren um dann eine Vorhersage mit unbekannten Daten zu treffen.
Im Moment sehe ich da aber nur einen Input, die Aufgabe und viele Zielklassen, die Abteilungen mit Teams.
Da braucht man mehr Input.

MagBen · Donnerstag 14. Juni 2018, 06:55

Eine Vorhersage ist dann möglich, wenn die Zuordnung in der Zukunft ähnlich verläuft wie in der Vergangenheit.
Um Ähnlichkeiten festzustellen brauchst du aber mehr Attribute. Ähnelt die Aufgabe 3 von morgen wirklich am meisten der Aufgabe 3 von gestern? Oder ist die Nummerierung der Aufgaben jedes mal neu und Aufgabe 3 von morgen ähnelt eher Aufgabe 7 von gestern?

lambkin · Freitag 15. Juni 2018, 17:15

Hi,

ja es gibt noch ein Haufen Input Parameter. Aber die Feature Auswahl möchte ich gar nicht zur Frage stellen, hier weiß ich was ich hinzuziehen kann. Meine Fragestellung war wohl aber auch nicht klar ausgedrückt.
Eigentlich geht es mir tatsächlich nur um das Target. Wie soll ich damit umgehen, dass mehrere Abteilungen als Output herauskommen können? Ich muss die Daten ja vorher entsprechend bereinigen und da dachte ich eben an aggregieren, aber scheint mir auch nicht überzeugend.

ThomasL · Freitag 15. Juni 2018, 19:31

Nun, das musst du für dich herausfinden.
Du kannst zuerst die Teams in die Abteilungen aggregieren und schauen wie es läuft
und dann alle Teams als separate Targets trainieren.