Seite 1 von 1

Deutsche Corpora mit NLTK

Verfasst: Mittwoch 24. Februar 2021, 20:34
von Squirrel2021
Hallo zusammen!

Ich suche nach den Deutschen Corpora um diese mit NLTK zu bearbeiten.
Gibt es solche?

Re: Deutsche Corpora mit NLTK

Verfasst: Donnerstag 25. Februar 2021, 07:42
von Felix92

Re: Deutsche Corpora mit NLTK

Verfasst: Donnerstag 25. Februar 2021, 17:25
von nezzcarth
Korpora gibt es zuhauf. Sowohl freie als auch kommerzielle. Allerdings wählt man sie normalerweise abhängig von dem, was man damit vorhat. Verschiedene Korpora sind für verschiedene Dinge gut. Was hast du vor?

Re: Deutsche Corpora mit NLTK

Verfasst: Donnerstag 25. Februar 2021, 21:03
von Squirrel2021
Vielen Dank, Felix 92 und Nezzcarth!

Ich brauche Wörter zu finden die bestimmte Siberstrukturen haben, zB: Hase (CV-CV), Kontakt (CVC-CVCC).
Ich habe schon ein Script und brauch' Corpora um die Wörter aufzufinden.

LG

Re: Deutsche Corpora mit NLTK

Verfasst: Samstag 27. Februar 2021, 12:17
von nezzcarth
Das Bestimmen der Silbenstruktur ist mit einem regulären Textkorpus so ohne Weiteres nicht zuverlässig möglich. Dafür benötigst du entweder ein Korpus, das entsprechende Informationen enthält, oder aber du baust eine Konverter-Komponente ein, die aus einer textlichen eine lautliche Repräsentation herleitet (dafür gibt es eigene Algorithmen, die du entweder als eigenständige Softwarepakete findest, oder auch als Teil von (freien) Text-To-Speech Systemen). Man kann sich da auch was mit RegEx zusammen fummeln, aber das liefert zwangsweise viele fehlerhafte Resultate.