Ich möchte gerne aus einer CoNLL-Datei (s. unten) die Nomen extrahieren, welche ein Genitivattribut haben. Bisher habe ich es so gemacht, dass ich das File importiert habe, und dann Zeile für Zeile nach Gen-Attributen gesucht habe und dann jeweils das vorangehende Nomen extrahiert habe. Im Grunde hat es so funktioniert, war jedoch relativ langsam für grosse Dateien.
Da ich auf einem Forum gelesen habe, dass man mit NLTK viel eleganter CoNLL-Dateien handeln kann, wollte ich fragen, wie das geht? Leider gab es dazu kein Beispiel o.Ä.
Ein Ausschnitt meiner CoNLL-Datei sieht wie folgt aus:
Vielen Dank für die Hilfe!1 Janine Janine N NE _|Nom|Sg 2 subj _ _
2 langweilte langweilen V VVFIN 3|Sg|Past|_ 0 root _ _
3 sich sie PRO PRF 3|_|_ 2 obja _ _
4 so so ADV ADV _ 5 adv _ _
5 sehr sehr ADV ADV _ 2 adv _ _
6 . . $. $. _ 0 root _ _
1 Es es PRO PPER 3|Sg|Neut|Nom 2 subj _ _
2 war sein V VAFIN 3|Sg|Past|Ind 0 root _ _
3 ein eine ART ART Indef|_|Nom|Sg 4 det _ _
4 Morgen Morgen N NN _|Nom|Sg 2 pred _ _
5 des die ART ART Def|Masc|Gen|Sg 6 det _ _
6 Montags Montag N NN Masc|Gen|Sg 4 gmod _ _
7 und und KON KON _ 2 kon _ _
8 sie sie PRO PPER 3|Sg|Fem|Nom 9 subj _ _
9 saß sitzen V VVFIN 3|Sg|Past|Ind 7 cj _ _
10 in in PREP APPR Dat 9 pp _ _
11 der die ART ART Def|Fem|Dat|Sg 12 det _ _
12 Stunde Stunde N NN Fem|Dat|Sg 10 pn _ _
13 der die ART ART Def|Fem|Gen|Sg 14 det _ _
14 Mathematik Mathematik N NN Fem|Gen|Sg 12 gmod _ _
15 . . $. $. _ 0 root _ _
1 Sie sie PRO PPER 3|Sg|Fem|Nom 2 subj _ _
2 kniff kneifen V VVFIN 3|Sg|Past|Ind 0 root _ _
3 sich sie PRO PRF 3|_|Dat 12 objd _ _
4 in in PREP APPR Acc 12 pp _ _
5 die die ART ART Def|_|Acc|_ 6 det _ _
6 Spitze Spitz N NN _|Acc|_ 4 pn _ _
7 der die ART ART Def|Masc|Gen|Pl 8 det _ _
8 Finger Finger N NN Masc|Gen|Pl 6 gmod _ _
9 um um PREP APPR _ 12 pp _ _
10 wach wach ADV ADJD Pos| 9 pn _ _
11 zu zu PTKZU PTKZU _ 12 part _ _
12 bleiben bleiben V VVINF _ 2 obji _ _
13 . . $. $. _ 0 root _ _
1 Das die ART ART Def|Neut|_|Sg 2 det _ _
2 Haus Haus N NN Neut|_|Sg 0 root _ _
3 des die ART ART Def|Masc|Gen|Sg 4 det _ _
4 Bürgermeisters Bürgermeister N NN Masc|Gen|Sg 2 gmod _ _
5 . . $. $. _ 0 root _ _
1 Der die ART ART Def|Masc|Nom|Sg 2 det _ _
2 Anstieg Anstieg N NN Masc|Nom|Sg 0 root _ _
3 der die ART ART Def|_|Gen|Pl 4 det _ _
4 Kosten Kosten N NN _|Gen|Pl 2 gmod _ _
5 . . $. $. _ 0 root _ _
1 Der die ART ART Def|Fem|_|Sg 2 det _ _
2 Eingliederung Eingliederung N NN Fem|_|Sg 0 root _ _
3 der die ART ART Def|Masc|Gen|Pl 4 det _ _
4 Spätaussiedler Spätaussiedler N NN Masc|Gen|Pl 2 gmod _ _
5 . . $. $. _ 0 root _ _
1 Ein ein ART ART Indef|_|_|Sg 2 det _ _
2 Drittel Drittel N NN _|_|Sg 0 root _ _
3 der die ART ART Def|_|Gen|Pl 4 det _ _
4 Kosten Kosten N NN _|Gen|Pl 2 gmod _ _
5 . . $. $. _ 0 root _ _
1 Eine eine ART ART Indef|Fem|_|Sg 2 det _ _
2 Dame Dame N NN Fem|_|Sg 0 root _ _
3 eines eine ART ART Indef|_|Gen|Sg 5 det _ _
4 gewissen gewiss ADJA ADJA Pos|_|Gen|Sg|_| 5 attr _ _
5 Alters Alter N NN _|Gen|Sg 2 gmod _ _
6 . . $. $. _ 0 root _ _
1 Das die ART ART Def|Neut|_|Sg 2 det _ _
2 Glück Glück N NN Neut|_|Sg 0 root _ _
3 der die ART ART Def|Fem|Gen|Sg 4 det _ _
4 Zufriedenheit Zufriedenheit N NN Fem|Gen|Sg 2 gmod _ _
5 . . $. $. _ 0 root _ _
