Die Suche ergab 7 Treffer

von Jess
Sonntag 23. September 2007, 22:32
Forum: Allgemeine Fragen
Thema: Steuerzeichen und HTML aus einer Textdatei eintfernen
Antworten: 12
Zugriffe: 4285

So, nochmals vielen Dank an alle hier.
Das Projekt ist in soweit beendet, daß der Spamfilter fertig ist und nun ausgewertet wird.

Jess
von Jess
Samstag 22. September 2007, 22:04
Forum: Allgemeine Fragen
Thema: Steuerzeichen und HTML aus einer Textdatei eintfernen
Antworten: 12
Zugriffe: 4285

Gut geraten :oops:
Danke
von Jess
Samstag 22. September 2007, 21:42
Forum: Allgemeine Fragen
Thema: Steuerzeichen und HTML aus einer Textdatei eintfernen
Antworten: 12
Zugriffe: 4285

Danke für die vielen Tipps :O)

Darüber ein shelve zu nutzen habe ich auch schon nachgedacht, es dann aber verworfen.
Jetzt wollte ich es nochmal probieren, aber schon beim "Erstellen" des shelves bekomme ich eine Fehlermeldung :(
d = shelve.open("dateiname.slv")
AttributeError: 'module' object has ...
von Jess
Samstag 22. September 2007, 19:03
Forum: Allgemeine Fragen
Thema: Steuerzeichen und HTML aus einer Textdatei eintfernen
Antworten: 12
Zugriffe: 4285

Dann bekomme ich noch die Wortanzahl im 1. Dokument und die Anzahl voneinander unterschiedlicher Wörter und dann kommt "Killed"

Jess
von Jess
Samstag 22. September 2007, 17:57
Forum: Allgemeine Fragen
Thema: Steuerzeichen und HTML aus einer Textdatei eintfernen
Antworten: 12
Zugriffe: 4285

Ich benutze ja das Dictionary im darin Wörter und ihre Vorkommenshäufigkeit in einer Datei zu speichern.
In meiner ersten Datei stehen 7.590.856 Wörter, wenn man nur die Wörter zählt, ohne ihre mehrfachvorkommen mitzuzählen sind das in diesem fall 137.425 (soviele Einträge sind das dann ja auch im ...
von Jess
Samstag 22. September 2007, 14:44
Forum: Allgemeine Fragen
Thema: Steuerzeichen und HTML aus einer Textdatei eintfernen
Antworten: 12
Zugriffe: 4285

Danke für den Tipp.
Leider hilft mir das "email" Package nicht weiter ;(
Ich umgehe das Problem mittlerweile indem ich die Datei für die Spammails mit einem Perl Script "säubere".
Mein nächstes Problem ist nun, daß ich Wortwahrschenlichkeiten in einem Dictionary zähle, aber da das Dictionary wohl ...
von Jess
Freitag 21. September 2007, 18:12
Forum: Allgemeine Fragen
Thema: Steuerzeichen und HTML aus einer Textdatei eintfernen
Antworten: 12
Zugriffe: 4285

Steuerzeichen und HTML aus einer Textdatei eintfernen

Hallo,

für einen Kurs soll ich einen (einfachen) Spam Filter schreiben (benotet wird die Idee, nicht der Filter/Quellcode an sich). Als Ratschlag bekamen wir entweder mit Python und dem nltk oder mit Weka einen Filter zu erstellen.
Ich habe mich für Python entschieden, obwohl ich diese Sprache ...