Komme nicht weiter bei ML Klassifizierung

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
apt1978
User
Beiträge: 3
Registriert: Sonntag 13. Juni 2021, 21:58

Ich arbeite an einem Projekt zur Malware-Analyse mit ML-Klassifizierungsalgorithmen. Dies ist der Code, den ich bereits habe.

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
'Dies ist eine Malware Datei',
'Dies ist auch eine Malware Datei',
'Diese Datei ist gutartig',
'Eine weitere gutartige Datei hier',
]

vectorizer = TfidfVectorizer(ngram_range=(2,2))
X = vectorizer.fit_transform(korpus).todense()

pd.DataFrame(X, columns=vectorizer.get_feature_names())


Ihr könnt den Inhalt des Corpus ignorieren, er ist nur ein Beispiel. Mein aktueller Code extrahiert n-grams (in diesem Fall 2-grams) aus allen Inhalten im Corpus und liefert eine Tabelle mit den tfidf-Werten für alle n-Gramme zu allen Dokumenten (Inhalten im Corpus).

Nun möchte ich Klassifikationsalgorithmen wie NB, SVM oder DT verwenden, um eine Klassifikation durchzuführen. Ich weiß nicht, was ich als nächstes tun muss. Ich weiß, dass ich Labels wie "malware" oder "gutartig“ für jedes "Dokument" im Korpus eingeben muss und dass ich meine Daten in Trainings- und Testdaten aufteilen muss. Wenn jemand von euch mir ein paar Tipps bezüglich des Weiteren Vorgehens geben könnte, wäre ich sehr dankbar :)
Benutzeravatar
ThomasL
User
Beiträge: 1366
Registriert: Montag 14. Mai 2018, 14:44
Wohnort: Kreis Unna NRW

Nun, da du ja schon mit sklearn arbeitest schau mal hier rein
https://scikit-learn.org/stable/index.html

und dann jeweils bei den Algorithmen unter Classification.
Ich bin Pazifist und greife niemanden an, auch nicht mit Worten.
Für alle meine Code Beispiele gilt: "There is always a better way."
https://projecteuler.net/profile/Brotherluii.png
Antworten