SnowballStemmer in Python
Verfasst: Donnerstag 9. November 2023, 17:21
Moin Zusammen,
ich brauche für ein NLP-Projekt einen Stemmer und habe mich für den SnowballStemmer entschieden, da dieser gerade für die deutsche Sprache ganz gut laufen soll. Dies habe ich über nltk gemacht:
Der Output ist: "farben, farbig, farb"
Während der Output unter http://text-processing.com/demo/stem/: "farb , farbig , farb" ist.
Die Website soll scheinbar jedoch den gleichen Algorithmus benutzten. Auch insgesamt sehen meine "richtigen" Wörter nicht wirklich gut gestemmt aus. Habe ich bei der Sprachauswahl ( SnowballStemmer("german")) etwas falsch gemacht oder wie kann man das Ergebnis verbessern?
P.S. Mein Prof wusste auf der schnelle auch nicht, woran es liegt
Freue mich auf Rückmeldung,
Max
ich brauche für ein NLP-Projekt einen Stemmer und habe mich für den SnowballStemmer entschieden, da dieser gerade für die deutsche Sprache ganz gut laufen soll. Dies habe ich über nltk gemacht:
Code: Alles auswählen
from nltk.stem import SnowballStemmer
test1 = ('färben, farbig, Farbe')
snowball = SnowballStemmer("german")
print('Snowball: ' + snowball.stem(test1))
Während der Output unter http://text-processing.com/demo/stem/: "farb , farbig , farb" ist.
Die Website soll scheinbar jedoch den gleichen Algorithmus benutzten. Auch insgesamt sehen meine "richtigen" Wörter nicht wirklich gut gestemmt aus. Habe ich bei der Sprachauswahl ( SnowballStemmer("german")) etwas falsch gemacht oder wie kann man das Ergebnis verbessern?
P.S. Mein Prof wusste auf der schnelle auch nicht, woran es liegt

Freue mich auf Rückmeldung,
Max