Komme nicht weiter bei ML Klassifizierung

apt1978 · Montag 21. Juni 2021, 17:39

Ich arbeite an einem Projekt zur Malware-Analyse mit ML-Klassifizierungsalgorithmen. Dies ist der Code, den ich bereits habe.

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
'Dies ist eine Malware Datei',
'Dies ist auch eine Malware Datei',
'Diese Datei ist gutartig',
'Eine weitere gutartige Datei hier',
]

vectorizer = TfidfVectorizer(ngram_range=(2,2))
X = vectorizer.fit_transform(korpus).todense()

pd.DataFrame(X, columns=vectorizer.get_feature_names())

Ihr könnt den Inhalt des Corpus ignorieren, er ist nur ein Beispiel. Mein aktueller Code extrahiert n-grams (in diesem Fall 2-grams) aus allen Inhalten im Corpus und liefert eine Tabelle mit den tfidf-Werten für alle n-Gramme zu allen Dokumenten (Inhalten im Corpus).

Nun möchte ich Klassifikationsalgorithmen wie NB, SVM oder DT verwenden, um eine Klassifikation durchzuführen. Ich weiß nicht, was ich als nächstes tun muss. Ich weiß, dass ich Labels wie "malware" oder "gutartig“ für jedes "Dokument" im Korpus eingeben muss und dass ich meine Daten in Trainings- und Testdaten aufteilen muss. Wenn jemand von euch mir ein paar Tipps bezüglich des Weiteren Vorgehens geben könnte, wäre ich sehr dankbar

ThomasL · Dienstag 22. Juni 2021, 06:11

Nun, da du ja schon mit sklearn arbeitest schau mal hier rein
https://scikit-learn.org/stable/index.html

und dann jeweils bei den Algorithmen unter Classification.