Deutsche Corpora mit NLTK

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Squirrel2021
User
Beiträge: 2
Registriert: Mittwoch 24. Februar 2021, 20:27

Hallo zusammen!

Ich suche nach den Deutschen Corpora um diese mit NLTK zu bearbeiten.
Gibt es solche?
nezzcarth
User
Beiträge: 1632
Registriert: Samstag 16. April 2011, 12:47

Korpora gibt es zuhauf. Sowohl freie als auch kommerzielle. Allerdings wählt man sie normalerweise abhängig von dem, was man damit vorhat. Verschiedene Korpora sind für verschiedene Dinge gut. Was hast du vor?
Squirrel2021
User
Beiträge: 2
Registriert: Mittwoch 24. Februar 2021, 20:27

Vielen Dank, Felix 92 und Nezzcarth!

Ich brauche Wörter zu finden die bestimmte Siberstrukturen haben, zB: Hase (CV-CV), Kontakt (CVC-CVCC).
Ich habe schon ein Script und brauch' Corpora um die Wörter aufzufinden.

LG
nezzcarth
User
Beiträge: 1632
Registriert: Samstag 16. April 2011, 12:47

Das Bestimmen der Silbenstruktur ist mit einem regulären Textkorpus so ohne Weiteres nicht zuverlässig möglich. Dafür benötigst du entweder ein Korpus, das entsprechende Informationen enthält, oder aber du baust eine Konverter-Komponente ein, die aus einer textlichen eine lautliche Repräsentation herleitet (dafür gibt es eigene Algorithmen, die du entweder als eigenständige Softwarepakete findest, oder auch als Teil von (freien) Text-To-Speech Systemen). Man kann sich da auch was mit RegEx zusammen fummeln, aber das liefert zwangsweise viele fehlerhafte Resultate.
Antworten