Deutsche Corpora mit NLTK

Squirrel2021 · Mittwoch 24. Februar 2021, 20:34

Hallo zusammen!

Ich suche nach den Deutschen Corpora um diese mit NLTK zu bearbeiten.
Gibt es solche?

Felix92 · Donnerstag 25. Februar 2021, 07:42

Huhu,
schau mal hier: https://lionbridge.ai/datasets/20-best- ... -learning/

https://www.linguistik.hu-berlin.de/de/ ... pora_links

LG

nezzcarth · Donnerstag 25. Februar 2021, 17:25

Korpora gibt es zuhauf. Sowohl freie als auch kommerzielle. Allerdings wählt man sie normalerweise abhängig von dem, was man damit vorhat. Verschiedene Korpora sind für verschiedene Dinge gut. Was hast du vor?

Squirrel2021 · Donnerstag 25. Februar 2021, 21:03

Vielen Dank, Felix 92 und Nezzcarth!

Ich brauche Wörter zu finden die bestimmte Siberstrukturen haben, zB: Hase (CV-CV), Kontakt (CVC-CVCC).
Ich habe schon ein Script und brauch' Corpora um die Wörter aufzufinden.

LG

nezzcarth · Samstag 27. Februar 2021, 12:17

Das Bestimmen der Silbenstruktur ist mit einem regulären Textkorpus so ohne Weiteres nicht zuverlässig möglich. Dafür benötigst du entweder ein Korpus, das entsprechende Informationen enthält, oder aber du baust eine Konverter-Komponente ein, die aus einer textlichen eine lautliche Repräsentation herleitet (dafür gibt es eigene Algorithmen, die du entweder als eigenständige Softwarepakete findest, oder auch als Teil von (freien) Text-To-Speech Systemen). Man kann sich da auch was mit RegEx zusammen fummeln, aber das liefert zwangsweise viele fehlerhafte Resultate.