ich arbeite für ein Uni-Projekt derzeit mit dem Pima Indian Diabetes Dataset und muss folgende Aufgabe bearbeiten:
Entscheiden Sie sich für einen geeigneten Algorithmus für maschinelles Lernen und trainieren Sie ihn an Ihren Daten, für drei verschiedene Eingabedaten:
a. X= reale Daten mit all ihren 8 Merkmalen (hier ist die Form Ihrer Daten (768,8))
b. X= Daten mit zwei am besten ausgewählten Merkmalen (hier ist die Form Ihrer Daten (768,2))
c. X= Daten mit zwei RANDOM-Merkmalen (hier ist die Form Ihrer Daten (768,2))
Den ersten Teil des Projekts, in dem ich die ein X und ein y initialisiert habe und eine Methode programmiert habe, die die zwei wichtigsten Datenpunkte unterscheidet, habe ich problemlos hinbekommen. Der Code, den ich bislang habe ist der hier:
Code: Alles auswählen
import pandas as pd
df = pd.read_csv (r'C:\Users\Thesty\Desktop\pima-indian-diabetes-dataset.csv')
print (df)
X = np.array(df)[:,0:7]
y= np.array(df)[:,8]
scaler=StandardScaler()
scaler.fit(X)
X_scaled=scaler.transform(X)
pca=PCA(n_components=2)
pca.fit(X_scaled)
X_pca=pca.transform(X_scaled)
print("Original data shape: {}".format(X_scaled.shape))
print("Reduced data shape: {}".format(X_pca.shape))
plt.plot(X_pca,"ro")
plt.show()
Für den zweiten Teil der Aufgabe fehlt mir leider ein konkreter Ansatz, da wir in dem Seminar nur KNN als supervised learning algorithm kennengelernt haben und der zum Bearbeiten der Aufgabe unpassend erscheint.
Falls jemand von euch eine Idee hat, welchen Algorithmus man für diese Aufgabe nehmen kann, würde ich mich sehr freuen!