Liste von Nomen extrahieren
Verfasst: Mittwoch 1. Juni 2011, 09:38
Hallo,
wie der Titel sagt, möchte ich aus einem Text eine Liste aller groß geschriebenen Wörter ausgeben. Wenn ich das mit folgendem Code probiere, dann stehen in der Ausgabe-Datei nur Chinesische Schriftzeichen. Woran kann das liegen?
Vielen Dank für eure Hilfe
wie der Titel sagt, möchte ich aus einem Text eine Liste aller groß geschriebenen Wörter ausgeben. Wenn ich das mit folgendem Code probiere, dann stehen in der Ausgabe-Datei nur Chinesische Schriftzeichen. Woran kann das liegen?
Code: Alles auswählen
# coding=utf-8
from __future__ import division
import re
import codecs
text = unicode(open("beispiel.txt","rU").read(),"utf-8")
tokens = text.split()
# Suchen aller Wörter, die mit einem Großbuchstaben beginnen
gross = re.compile(u"^[A-ZÖÄÜ]")
nomina = []
for i in range(0, len(text)):
wort = text[i]
if gross.search(wort):
nomina.append(wort)
# Ausgabedatei öffnen
out = codecs.open('ausgabe.txt','w','utf-8')
# Alphabetisch sortierte Ausgabe
for nomen in nomina:
print >> out, nomen
out.close()
Vielen Dank für eure Hilfe