Suche Modell für Spam Filtering

Lizzy · Freitag 22. März 2019, 12:54

Hallo,
ich habe einen Datensatz der für verschiedene items (emails) verschiedene features hat. Außerdem WEIß ich von einigen emails, dass sie spam sind. Jetzt möchte ich für die anderen (von denen ich es nicht weiß) eine Vorhersage treffen, ob sie Spam sind oder nicht. Ich sehe auf den ersten Blick keinen Zusammenhang bei denen als Spam identifizierten.
Hat jemand eine Idee mit welcher Methode ich an diese Problem rangehen könnte?

lacreature · Freitag 22. März 2019, 14:37

woraus bestehen die featuresets? wie hast du die verschiedenen kategorien klassifiziert?
du könntest bspw mit einer sentimentanalyse beginnen, indem du verschiedene featuresets erstellst, zb, "spam" "nicht-spam" und "neutral", also wörter deren häufigkeit in einer der kategorien höher ist. dann kannst du aus diesen featuresets ein trainingsset erstellen, auf deren basis das programm vorhersagen treffen kann.

ThomasL · Freitag 22. März 2019, 15:06

Ein sehr gutes einführendes Tutorial kannst du dir hier anschauen
https://www.youtube.com/watch?v=ZiKMIuYidY0

Eine ausführlichere Variante, aber älter:
https://www.youtube.com/playlist?list=P ... BInZnIC4HL

Lizzy · Freitag 22. März 2019, 15:12

Danke euch!
Nur aus Interesse: Was ist generell für ein Ansatz möglich (wenn es jetzt nicht um Text geht sondern zB um "normale" Zahlenwerte als features) wenn man von einigen items weiß dass sie zB spam sind und von anderen nicht? (und diese somit vorhersagen möchte) Ist ja im Prinzip eine binäre Klassifizierung allerdings habe ich nur "Ergebnisse" der einen Klasse und nicht der anderen und kann somit kein supervised learning anwenden

ThomasL · Freitag 22. März 2019, 15:34

nur so eine Idee, habe ich selber noch nicht gemacht
https://en.wikipedia.org/wiki/Anomaly_detection
Du trainierst ein Modell auf deine Spam Mails und prüfst dann die unbekannten Mails
ob sie Outlier sind. Wenn ja ist die Wahrscheinlichkeit hoch, dass es keine Spam Mail ist.

ThomasL · Freitag 22. März 2019, 15:36

Hier noch ein Stanford Kurs der richtig in die Tiefen der Materie geht
https://www.youtube.com/playlist?list=P ... 3fVwBBY42z

Lizzy · Freitag 22. März 2019, 15:37

Danke!