Alterskategorien Encoden
Verfasst: Donnerstag 9. Juni 2022, 18:18
Servus,
in Rahmen eines Semesterprojektes möchte ich mit einen Datensatz arbeiten, der sich mit Herzproblemen behandelt. In diesem ist das Alter kategorisch angegeben, also z.b 18-24. Gut ich habe aus diesen Werten jetzt schon einzelne gemacht, die ich in einem DecisionTree verwenden möchte. Jedoch sind die Spannweiten zu klein und somit wird der DecisionTree überflutet und einfach zu groß.
So habe ich das bis jetzt gemacht:
Jetzt würde ich gerne die ['21', '27', '32','37', '42', '47','52', '57', '62','67', '72', '77', '80'] jeweils 2 zu einen machen, also Z:B 21 und 27 zu 24, jedoch habe ich irgendwie noch kein weg gefunden. Wahrscheinlich habe gerade auch nur ein Brett vor den Kopf, aber HMMMMMM.
Wichtig ist, das Später weiter weiter mit ['AgeCategory'] gemacht wird, für das MLS.
Vielen Dank.
in Rahmen eines Semesterprojektes möchte ich mit einen Datensatz arbeiten, der sich mit Herzproblemen behandelt. In diesem ist das Alter kategorisch angegeben, also z.b 18-24. Gut ich habe aus diesen Werten jetzt schon einzelne gemacht, die ich in einem DecisionTree verwenden möchte. Jedoch sind die Spannweiten zu klein und somit wird der DecisionTree überflutet und einfach zu groß.
So habe ich das bis jetzt gemacht:
Code: Alles auswählen
encode_AgeCategory = {'18-24':21,'25-29':27,'30-34':32, '35-39':37,
'40-44':42, '45-49':47,'50-54':52,'55-59':57,
'60-64':62,'65-69':67,'70-74':72, '75-79':77,
'80 or older':80}
df['AgeCategory'] = df['AgeCategory'].apply(lambda x: encode_AgeCategory[x])
df['AgeCategory'] = df['AgeCategory'].astype('float')
Wichtig ist, das Später weiter weiter mit ['AgeCategory'] gemacht wird, für das MLS.
Vielen Dank.