ich brauche für ein NLP-Projekt einen Stemmer und habe mich für den SnowballStemmer entschieden, da dieser gerade für die deutsche Sprache ganz gut laufen soll. Dies habe ich über nltk gemacht:
Code: Alles auswählen
from nltk.stem import SnowballStemmer
test1 = ('färben, farbig, Farbe')
snowball = SnowballStemmer("german")
print('Snowball: ' + snowball.stem(test1))
Während der Output unter http://text-processing.com/demo/stem/: "farb , farbig , farb" ist.
Die Website soll scheinbar jedoch den gleichen Algorithmus benutzten. Auch insgesamt sehen meine "richtigen" Wörter nicht wirklich gut gestemmt aus. Habe ich bei der Sprachauswahl ( SnowballStemmer("german")) etwas falsch gemacht oder wie kann man das Ergebnis verbessern?
P.S. Mein Prof wusste auf der schnelle auch nicht, woran es liegt

Freue mich auf Rückmeldung,
Max