Suche Modell für Spam Filtering

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Lizzy
User
Beiträge: 48
Registriert: Mittwoch 30. Januar 2019, 15:22

Hallo,
ich habe einen Datensatz der für verschiedene items (emails) verschiedene features hat. Außerdem WEIß ich von einigen emails, dass sie spam sind. Jetzt möchte ich für die anderen (von denen ich es nicht weiß) eine Vorhersage treffen, ob sie Spam sind oder nicht. Ich sehe auf den ersten Blick keinen Zusammenhang bei denen als Spam identifizierten.
Hat jemand eine Idee mit welcher Methode ich an diese Problem rangehen könnte?
lacreature
User
Beiträge: 17
Registriert: Dienstag 5. März 2019, 23:34

woraus bestehen die featuresets? wie hast du die verschiedenen kategorien klassifiziert?
du könntest bspw mit einer sentimentanalyse beginnen, indem du verschiedene featuresets erstellst, zb, "spam" "nicht-spam" und "neutral", also wörter deren häufigkeit in einer der kategorien höher ist. dann kannst du aus diesen featuresets ein trainingsset erstellen, auf deren basis das programm vorhersagen treffen kann.
Benutzeravatar
ThomasL
User
Beiträge: 1366
Registriert: Montag 14. Mai 2018, 14:44
Wohnort: Kreis Unna NRW

Ein sehr gutes einführendes Tutorial kannst du dir hier anschauen
https://www.youtube.com/watch?v=ZiKMIuYidY0

Eine ausführlichere Variante, aber älter:
https://www.youtube.com/playlist?list=P ... BInZnIC4HL
Ich bin Pazifist und greife niemanden an, auch nicht mit Worten.
Für alle meine Code Beispiele gilt: "There is always a better way."
https://projecteuler.net/profile/Brotherluii.png
Lizzy
User
Beiträge: 48
Registriert: Mittwoch 30. Januar 2019, 15:22

Danke euch!
Nur aus Interesse: Was ist generell für ein Ansatz möglich (wenn es jetzt nicht um Text geht sondern zB um "normale" Zahlenwerte als features) wenn man von einigen items weiß dass sie zB spam sind und von anderen nicht? (und diese somit vorhersagen möchte) Ist ja im Prinzip eine binäre Klassifizierung allerdings habe ich nur "Ergebnisse" der einen Klasse und nicht der anderen und kann somit kein supervised learning anwenden
Benutzeravatar
ThomasL
User
Beiträge: 1366
Registriert: Montag 14. Mai 2018, 14:44
Wohnort: Kreis Unna NRW

nur so eine Idee, habe ich selber noch nicht gemacht
https://en.wikipedia.org/wiki/Anomaly_detection
Du trainierst ein Modell auf deine Spam Mails und prüfst dann die unbekannten Mails
ob sie Outlier sind. Wenn ja ist die Wahrscheinlichkeit hoch, dass es keine Spam Mail ist.
Ich bin Pazifist und greife niemanden an, auch nicht mit Worten.
Für alle meine Code Beispiele gilt: "There is always a better way."
https://projecteuler.net/profile/Brotherluii.png
Benutzeravatar
ThomasL
User
Beiträge: 1366
Registriert: Montag 14. Mai 2018, 14:44
Wohnort: Kreis Unna NRW

Hier noch ein Stanford Kurs der richtig in die Tiefen der Materie geht
https://www.youtube.com/playlist?list=P ... 3fVwBBY42z
Ich bin Pazifist und greife niemanden an, auch nicht mit Worten.
Für alle meine Code Beispiele gilt: "There is always a better way."
https://projecteuler.net/profile/Brotherluii.png
Lizzy
User
Beiträge: 48
Registriert: Mittwoch 30. Januar 2019, 15:22

Danke!
Antworten