Seite 1 von 1

Stopwords filtern

Verfasst: Samstag 4. Februar 2023, 11:40
von Neelia
Ich habe hier einen tokenisierten Text (podcastanfang) in dem ich gerne die Stopwords (deutsch) herausfiltern möchte.
Dabei erscheint mir immer wieder eine Fehlermeldung (invalid syntax). Ich verstehe aber leider nicht was das Problem ist.

Kann mir da jemand weiterhelfen ?

Code: Alles auswählen

filtered_token = [in podcastanfang if podcastanfang not in stopwords.words('german')]
clean_token='\n'.join(filtered_token) with open(path + txt, 'r', encoding="utf-8") as output: 
    output.write(clean_tokens)

Re: Stopwords filtern

Verfasst: Samstag 4. Februar 2023, 11:44
von sparrow
Ich denke nicht, dass man das with-statement so verwenden kann. Das sollte schon in einer eigenen Zeile stehen.
Woher hast du die Information, dass das so gehen sollte?

Re: Stopwords filtern

Verfasst: Samstag 4. Februar 2023, 11:49
von Neelia

Re: Stopwords filtern

Verfasst: Samstag 4. Februar 2023, 11:50
von __deets__
Grundsätzlich bitte auch immer die passende Fehlermeldung liefern, denn nicht immer kann das einfach erraten werden.

Hier sind diverse Probleme, die einfach kein gültiges Python sind. Die erste Zeile soll sowas wie eine List-Comprehension sein? Die hat aber eine ganz andere Form:

Code: Alles auswählen

results = [expression for thing in things if condition]
Ich *vermute* mal bei dir sollte sowas stehen

Code: Alles auswählen

filtred_token = [token for token in podcastanfang if token not in stopwords.words("german")]
Wobei jetzt nicht klar ist, wie podcastanfang wirklich aussieht. Ich unterstelle hier eine Liste von Worten.

Die Zeile danach ist auch gurkig: das with Statement gehört auf eine eigene Zeile, nicht hintereinander geklatscht an das erstellen von clean_token.

Re: Stopwords filtern

Verfasst: Samstag 4. Februar 2023, 11:51
von __deets__
Neelia hat geschrieben: Samstag 4. Februar 2023, 11:49 https://fortext.net/routinen/lerneinhei ... g-mit-nltk#

von dieser Webseite
Da steht das with aber auch auf einer eigenen Zeile.

Re: Stopwords filtern

Verfasst: Samstag 4. Februar 2023, 12:34
von Neelia
Also Podcastanfang stellt ein String dar, in dem mehrere Textdateien zusammengefasst worden sind. Und diesen String wollte ich von den Stopwords bereinigt haben.

Re: Stopwords filtern

Verfasst: Samstag 4. Februar 2023, 13:19
von __deets__
Dann musst du den erstmal in eine Liste von Wörtern Wandeln. Zb mit der Methode split von dem String-Objekt.