Ich schreibe an einem Programm, das eine Textdatei einliest und die einzelnen Wörter zählt. Da habe ich jetzt folgendermaßen angefangen:
Code: Alles auswählen
#!/usr/bin/python
# -*- coding: utf-8 -*-
from pylab import *
with open ('bsp.txt', "r") as myfile:
data = myfile.readlines()
def analyse(data):
abc = "abcdefghijklmnopqrstuvwxyzöäüß"
wordlist = []
word = ""
signs = ".,?!_-;:)(<>"
for line in data:
for character in line:
characters = character.lower()
if characters in abc:
word += characters
else:
if len(word) >0:
wordlist.append(word)
if letters in signs:
wordlist.append(characters)
word = ""
return wordlist
Es hat ja eine Umstrukturierung von Python 2 zu Python 3 gegeben, so dass Decoding eigentlich nicht mehr nötig ist (wenn ich das richtig verstanden habe).
Nun scheint Python den eingegebenen Text als UTF-8 zu interpretieren - wie kann ich ihm das abgewöhnen? Bzw. an welcher Stelle muss ich zu ISO8859-1 und wieder zurück wechseln?
Das ist wahrscheinlich eine typische Anfängerfrage, aber ich sitze seit gestern an dem Problem und google wild herum ohne an eine Lösung zu kommen.
Lieben Gruß