wie der Titel sagt, möchte ich aus einem Text eine Liste aller groß geschriebenen Wörter ausgeben. Wenn ich das mit folgendem Code probiere, dann stehen in der Ausgabe-Datei nur Chinesische Schriftzeichen. Woran kann das liegen?
Code: Alles auswählen
# coding=utf-8
from __future__ import division
import re
import codecs
text = unicode(open("beispiel.txt","rU").read(),"utf-8")
tokens = text.split()
# Suchen aller Wörter, die mit einem Großbuchstaben beginnen
gross = re.compile(u"^[A-ZÖÄÜ]")
nomina = []
for i in range(0, len(text)):
wort = text[i]
if gross.search(wort):
nomina.append(wort)
# Ausgabedatei öffnen
out = codecs.open('ausgabe.txt','w','utf-8')
# Alphabetisch sortierte Ausgabe
for nomen in nomina:
print >> out, nomen
out.close()
Vielen Dank für eure Hilfe