1.
Deutsche Stopwords/Stoppwörter:
Für Englische stopwords nutzt man den Befehl
Code: Alles auswählen
[w for w in TEXT if w not in stopwords.words ("english")]
2.
Wie entferne ich am besten die Satzzeichen in einem Text?
Ich habe beim stöbern diesen Code hier gefunden:
Code: Alles auswählen
re.compile(r"[-?!:;.,()0-9\n\r|]")
und die Zahlen 0-9.
Aber was bedeutet \n und \r|?
Kann ich hier nicht auch einfach eine Liste mit Zeichen und allem erstellen, dass ich entfernt haben möchte (Wie bei den stopwords)?
3.
Ich möchte aus einem Text alle kleingeschriebenen Wörter entfernen. Mit dem Code:
Code: Alles auswählen
[' '.join(w for w in a.split() if w.isupper()) for a in TEXT]
Schon einmal vielen Dank für die Hilfe.