Ich möchte aus einem Korpus die Anzahl Wortformen herausfiltern, die mehr als eine Wortart haben.
Das Vorgehen scheint mir klar zu sein: Ich definiere zuerst ein Dictionary, laufe dann durch das ganze Korpus hindurch und prüfe für jedes Wort, ob der jeweilige Tag schon vorhanden ist bzw. neu erstellt werden muss (d.h. value wäre 1) oder ob es sich um einen neuen Tag handelt, womit sich dann auch der Wert erhöhen würde.
Am Schluss sind die gesuchten Wörter diejenigen, die einen Wert grösser als 1 haben.
Bei der codemässigen Umsetzung wurde ich daran erinnert, dass wenn bei dictionaries zweimal der gleiche Schlüssel vorkommt, der Wert dazu dann einfach überschrieben wird:
Code: Alles auswählen
import nltk
korpus = nltk.corpus.brown.tagged_words()
dicti = {}
for entries in korpus:
dicti[entries[0]] = entries[1]
print dicti.get('it')
Ich danke bestens für die Hilfe!