Sätze aus dt. Text mit nltk und dehyphen
Verfasst: Donnerstag 21. Oktober 2021, 19:54
Diesen Satz habe ich mit nltk.sent_tokenize aus einem größeren Text erstellt:
"Die Bürgerinnen und Bürger in Nordrhein- Westfalen sind dringend auf neue Forschungser- gebnisse für lebensrettende Medikamente angewie- sen."
Dabei macht es keinen Unterschied, ob ich
german_tokenizer = nltk.data.load('tokenizers/punkt/PY3/german.pickle')
sentences = german_tokenizer.tokenize(text)
verwende oder
sentences = sent_tokenize(text, language='german')
Das Ergebnis ist in beiden Varianten gleich.
Mit dehyphen.format.text_to_format erhalte ich:
[['Die', 'Bürgerinnen', 'und', 'Bürger', 'in', 'Nordrhein-', 'Westfalen', 'sind', 'dringend', 'auf', 'neue', 'Forschungser-', 'gebnisse', 'für', 'lebensrettende', 'Medikamente', 'angewie-', 'sen.']]
dehyphen sollte dann die Bindestriche klarmachen, was aber leider nicht klappt.
dehyphened_sent = scorer.dehyphen(sent_w_hyphens)
Die Bürgerinnen und Bürger in Nordrhein- Westfalen sind dringend auf neue Forschungser- gebnisse für lebensrettende Medikamente angewie- sen.
Ich weiß, dass dehyphen im Versuchsstadium ist, aber das Frustrierende ist, dass es bereits eine ganze Zeitlang geklappt hat und jetzt auf einmal nicht mehr. Gibt es eine Alternative zu dehyphen? Wie könnte ich das besser machen?
"Die Bürgerinnen und Bürger in Nordrhein- Westfalen sind dringend auf neue Forschungser- gebnisse für lebensrettende Medikamente angewie- sen."
Dabei macht es keinen Unterschied, ob ich
german_tokenizer = nltk.data.load('tokenizers/punkt/PY3/german.pickle')
sentences = german_tokenizer.tokenize(text)
verwende oder
sentences = sent_tokenize(text, language='german')
Das Ergebnis ist in beiden Varianten gleich.
Mit dehyphen.format.text_to_format erhalte ich:
[['Die', 'Bürgerinnen', 'und', 'Bürger', 'in', 'Nordrhein-', 'Westfalen', 'sind', 'dringend', 'auf', 'neue', 'Forschungser-', 'gebnisse', 'für', 'lebensrettende', 'Medikamente', 'angewie-', 'sen.']]
dehyphen sollte dann die Bindestriche klarmachen, was aber leider nicht klappt.
dehyphened_sent = scorer.dehyphen(sent_w_hyphens)
Die Bürgerinnen und Bürger in Nordrhein- Westfalen sind dringend auf neue Forschungser- gebnisse für lebensrettende Medikamente angewie- sen.
Ich weiß, dass dehyphen im Versuchsstadium ist, aber das Frustrierende ist, dass es bereits eine ganze Zeitlang geklappt hat und jetzt auf einmal nicht mehr. Gibt es eine Alternative zu dehyphen? Wie könnte ich das besser machen?