Seite 1 von 1
Stopwords filtern
Verfasst: Samstag 4. Februar 2023, 11:40
von Neelia
Ich habe hier einen tokenisierten Text (podcastanfang) in dem ich gerne die Stopwords (deutsch) herausfiltern möchte.
Dabei erscheint mir immer wieder eine Fehlermeldung (invalid syntax). Ich verstehe aber leider nicht was das Problem ist.
Kann mir da jemand weiterhelfen ?
Code: Alles auswählen
filtered_token = [in podcastanfang if podcastanfang not in stopwords.words('german')]
clean_token='\n'.join(filtered_token) with open(path + txt, 'r', encoding="utf-8") as output:
output.write(clean_tokens)
Re: Stopwords filtern
Verfasst: Samstag 4. Februar 2023, 11:44
von sparrow
Ich denke nicht, dass man das with-statement so verwenden kann. Das sollte schon in einer eigenen Zeile stehen.
Woher hast du die Information, dass das so gehen sollte?
Re: Stopwords filtern
Verfasst: Samstag 4. Februar 2023, 11:49
von Neelia
Re: Stopwords filtern
Verfasst: Samstag 4. Februar 2023, 11:50
von __deets__
Grundsätzlich bitte auch immer die passende Fehlermeldung liefern, denn nicht immer kann das einfach erraten werden.
Hier sind diverse Probleme, die einfach kein gültiges Python sind. Die erste Zeile soll sowas wie eine List-Comprehension sein? Die hat aber eine ganz andere Form:
Code: Alles auswählen
results = [expression for thing in things if condition]
Ich *vermute* mal bei dir sollte sowas stehen
Code: Alles auswählen
filtred_token = [token for token in podcastanfang if token not in stopwords.words("german")]
Wobei jetzt nicht klar ist, wie podcastanfang wirklich aussieht. Ich unterstelle hier eine Liste von Worten.
Die Zeile danach ist auch gurkig: das with Statement gehört auf eine eigene Zeile, nicht hintereinander geklatscht an das erstellen von clean_token.
Re: Stopwords filtern
Verfasst: Samstag 4. Februar 2023, 11:51
von __deets__
Da steht das with aber auch auf einer eigenen Zeile.
Re: Stopwords filtern
Verfasst: Samstag 4. Februar 2023, 12:34
von Neelia
Also Podcastanfang stellt ein String dar, in dem mehrere Textdateien zusammengefasst worden sind. Und diesen String wollte ich von den Stopwords bereinigt haben.
Re: Stopwords filtern
Verfasst: Samstag 4. Februar 2023, 13:19
von __deets__
Dann musst du den erstmal in eine Liste von Wörtern Wandeln. Zb mit der Methode split von dem String-Objekt.