import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
'Dies ist eine Malware Datei',
'Dies ist auch eine Malware Datei',
'Diese Datei ist gutartig',
'Eine weitere gutartige Datei hier',
]
vectorizer = TfidfVectorizer(ngram_range=(2,2))
X = vectorizer.fit_transform(korpus).todense()
pd.DataFrame(X, columns=vectorizer.get_feature_names())
Ihr könnt den Inhalt des Corpus ignorieren, er ist nur ein Beispiel. Mein aktueller Code extrahiert n-grams (in diesem Fall 2-grams) aus allen Inhalten im Corpus und liefert eine Tabelle mit den tfidf-Werten für alle n-Gramme zu allen Dokumenten (Inhalten im Corpus).
Nun möchte ich Klassifikationsalgorithmen wie NB, SVM oder DT verwenden, um eine Klassifikation durchzuführen. Ich weiß nicht, was ich als nächstes tun muss. Ich weiß, dass ich Labels wie "malware" oder "gutartig“ für jedes "Dokument" im Korpus eingeben muss und dass ich meine Daten in Trainings- und Testdaten aufteilen muss. Wenn jemand von euch mir ein paar Tipps bezüglich des Weiteren Vorgehens geben könnte, wäre ich sehr dankbar
