Hallo zusammen!
Ich suche nach den Deutschen Corpora um diese mit NLTK zu bearbeiten.
Gibt es solche?
Deutsche Corpora mit NLTK
-
- User
- Beiträge: 2
- Registriert: Mittwoch 24. Februar 2021, 20:27
Vielen Dank, Felix 92 und Nezzcarth!
Ich brauche Wörter zu finden die bestimmte Siberstrukturen haben, zB: Hase (CV-CV), Kontakt (CVC-CVCC).
Ich habe schon ein Script und brauch' Corpora um die Wörter aufzufinden.
LG
Ich brauche Wörter zu finden die bestimmte Siberstrukturen haben, zB: Hase (CV-CV), Kontakt (CVC-CVCC).
Ich habe schon ein Script und brauch' Corpora um die Wörter aufzufinden.
LG
Das Bestimmen der Silbenstruktur ist mit einem regulären Textkorpus so ohne Weiteres nicht zuverlässig möglich. Dafür benötigst du entweder ein Korpus, das entsprechende Informationen enthält, oder aber du baust eine Konverter-Komponente ein, die aus einer textlichen eine lautliche Repräsentation herleitet (dafür gibt es eigene Algorithmen, die du entweder als eigenständige Softwarepakete findest, oder auch als Teil von (freien) Text-To-Speech Systemen). Man kann sich da auch was mit RegEx zusammen fummeln, aber das liefert zwangsweise viele fehlerhafte Resultate.