in Rahmen eines Semesterprojektes möchte ich mit einen Datensatz arbeiten, der sich mit Herzproblemen behandelt. In diesem ist das Alter kategorisch angegeben, also z.b 18-24. Gut ich habe aus diesen Werten jetzt schon einzelne gemacht, die ich in einem DecisionTree verwenden möchte. Jedoch sind die Spannweiten zu klein und somit wird der DecisionTree überflutet und einfach zu groß.
So habe ich das bis jetzt gemacht:
Code: Alles auswählen
encode_AgeCategory = {'18-24':21,'25-29':27,'30-34':32, '35-39':37,
'40-44':42, '45-49':47,'50-54':52,'55-59':57,
'60-64':62,'65-69':67,'70-74':72, '75-79':77,
'80 or older':80}
df['AgeCategory'] = df['AgeCategory'].apply(lambda x: encode_AgeCategory[x])
df['AgeCategory'] = df['AgeCategory'].astype('float')
Wichtig ist, das Später weiter weiter mit ['AgeCategory'] gemacht wird, für das MLS.
Vielen Dank.