Umlaute

MarcelF6 · Samstag 17. März 2012, 18:39

Hallo liebe Mitglieder,

weiss jemand, was man wie / wo ändern muss, damit python Statements à la:

re.sub("ß", "ss", string)

versteht?
Das Problem liegt ja darin, dass nicht-ASCII-Zeichen per default nicht "erkannt" werden...

Danke im Voraus.

cofi · Samstag 17. März 2012, 18:51

Nein, das Problem liegt darin, dass "ß" ein _Bytestring_ ist. `string` also dasselbe Encoding haben muss wie deine Datei damit der Code funktioniert.

Code: Alles auswählen

In [4]: print re.sub('ß', 'ss', u'Straße')
Straße

In [5]: print re.sub(u'ß', 'ss', u'Straße')
Strasse

In [6]: print re.sub(u'ß', 'ss', 'Straße')
Straße

In [7]: print re.sub('ß', 'ss', 'Straße')
Strasse

BlackJack · Samstag 17. März 2012, 19:22

@MarcelF6: Du bekommst da doch ziemlich sicher eine Ausnahme. Wie lautet die denn? Komplett bitte. Hast Du den Text gelesen? Also auch dem Hinweis nachgegangen?

MarcelF6 · Samstag 17. März 2012, 21:03

Ja, die Fehlermeldung besagt dass kein encoding definiert wurde. Also:
" [...]on line 17, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details "

Also es geht um folgenden Programmausschnitt:

Code: Alles auswählen

f = file(unicodeObjekt)
    while True:
        out = f.readlines()
        out = out.lower()
        ae = re.sub(u'ä', 'ae', out)
        oe = re.sub(u"ö", "oe", ae)
        ue = re.sub(u"ü", "ue", oe)
        ss = re.sub(u"ß", "ss", ue)
        return ss
    f.close()

So "einfach" wie ich gedacht habe funktioniert das leider nicht. Also gibt es eine andere Möglichkeit das so zu machen wie ich es vor hatte?

lunar · Samstag 17. März 2012, 21:06

@MarcelF6: Lies für den Anfang doch einfach mal die Seite, auf welche in der Fehlermeldung verwiesen wird.

BlackJack · Samstag 17. März 2012, 22:15

@MarcelF6: `re.sub()` ist hier auch etwas mit Kanonen auf Spatzen geschossen. Wenn Du einfach nur statische Zeichenfolgen ersetzen willst, dann gibt es auf Zeichenketten dafür eine einfachere Methode.

EyDu · Samstag 17. März 2012, 22:27

Mich würde nun aber wirklich stark interessieren, aus welchem Grund du überall diese unnötigen ``while True`` verwendest.

MarcelF6 · Samstag 17. März 2012, 22:30

Habe ich gemacht - so wie ich es verstanden habe muss man gewisse encodings vornehmen.
Ich habs mal probiert:

Code: Alles auswählen

#!/usr/bin/python
# -*- coding: utf-8 -*-#

import re
import sys

def funktion(unicodeObjekt):
    '''Gib eine Datei auf der Standardausgabe aus.'''
    f = unicode(file(unicodeObjekt))
    f.unicode.encode('utf-8')
    while True:
        out = f.readlines()
        out = out.lower()
        ae = re.sub(u'ä', 'ae', out)
        oe = re.sub(u"ö", "oe", ae)
        ue = re.sub(u"ü", "ue", oe)
        ss = re.sub(u"ß", "ss", ue)
        return ss
    f.close()

if len(sys.argv) < 2:
    print 'Es wurden keine Parameter übergeben.'
    sys.exit()
else:
    for unicodeObjekt in sys.argv[1:]:
        funktion(unicodeObjekt)

Wie gesagt: "probiert". Das Problem ist, dass ich aus der Beschreibung nicht ganz schlau wurde, was genau wie encodiert werden sollte..

@Blackjack: Ich habe als input einfach ein Unicode-Objekt.

@EyDu: Werd ich noch wegmachen

..hab das eben alles nacheinander geschrieben

nomnom · Samstag 17. März 2012, 22:47

- „while True“ ist sinnlos: Du verlässt die Schleife eh im ersten Durchgang.
- Du brauchst immer noch kein re.sub für einfache Substitutionen. „str.replace“ reicht vollkommen.
- „f.close()“ wird nie ausgeführt werden, da du vorher schon die Funktion verlässt.
- Wenn du kein Emacs verwendest kannst du auch „# coding: utf-8“ benutzen.
- Du probierst viel zu wild ‘rum!

Code: Alles auswählen

In [8]: unicode(file('blabla.txt'))
Out[8]: u"<open file 'blabla.txt', mode 'r' at 0x956e5a0>"

In [9]: _.unicode.encode('utf-8') # _ ist u"<open ...>"
---------------------------------------------------------------------------
AttributeError                            Traceback (most recent call last)
/home/jakob/<ipython-input-9-3480aff0e5da> in <module>()
----> 1 _.unicode # _ ist u"<open ...>"

AttributeError: 'unicode' object has no attribute 'unicode'

Schau dir mal die Seiten aus Hyperions Signatur an, ich finde, dass Unicode und Encodings in Python da sehr gut erläutert werden:
Leonidas’ Folien — Von Umlauten, Unicode und Encodings im Wiki — Pragmatic Unicode – Präsentation von Ned Batchelder zu Unicode

EyDu · Samstag 17. März 2012, 22:48

Wie wäre es, wenn du uns auch das Beispiel gibst, mit dem du arbeitest? Ganz offensichtlich existiert die Funktion "normalize" nicht, wahrscheinlich ist "funktion" gemeint.

Folgender Code sieht auf jeden Fall falsch aus:

Code: Alles auswählen

f = unicode(file(unicodeObjekt))
f.unicode.encode('utf-8')

Zerlege das mal in einzelne Schritte und lasse dir die Zwischenergebnisse ausgeben. Den Trick solltest du jetzt ja eignetlich schon kennen.

Zum ``while-True``: Warum entfernst du es nicht bevor du es postest? Um so weniger Code wir lesen müssen, desto wahrscheinlicher ist es, dass dir geholfen wird. Vorallem wenn es um Abschnitte geht, auf die man die bereits hingeweisen hat.

MarcelF6 · Sonntag 18. März 2012, 03:27

Danke für die Hilfe.
Also ich hab den Code auch nochmals überarbeitet:

Code: Alles auswählen

#!/usr/bin/python
# -*- coding: utf-8 -*-#

import sys

def funktion(unicodeObjekt):
    '''Gib eine Datei auf der Standardausgabe aus.'''
    with open(unicodeObjekt, "r") as f:
	content = unicode(f.read())
	return string.replace(content, 'ä', 'ae')


if len(sys.argv) < 2:
    print 'Es wurden keine Parameter übergeben.'
    sys.exit()
else:
    funktion(sys.argv[1])

Allerdings hab ich immernoch eine Fehlermeldung:
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc3 in position 8: ordinal not in range(128)
Ich bin mir aber nicht sicher, ob das wirklich ein Problem wegen des Codes ist oder ob die Meldung vom Editor stammt. Denn jetzt reklamiert die shell auch bei normalen print-Statements mit ä,ö,ü dass sie keine ASCII-Characters seien. Woran genau liegt das Problem?
Dankeschön!

nomnom · Sonntag 18. März 2012, 08:55

Wenn du ein „unicode“-Objekt erstellen möchtest und kein Encoding angibst, dann wird angenommen, dass ASCII verwendet wurde.

Code: Alles auswählen

    content = unicode(f.read())

Du musst wissen, in welchem Encoding deine Datei vorliegt und dann

Code: Alles auswählen

f.read().encode('*encoding*')

aufrufen.

Code: Alles auswählen

    return content.replace(u'ä', u'ae') # ist übrigens "besser" als string.replace, vor allem wenn man string gar nicht importiert

BlackJack · Sonntag 18. März 2012, 09:05

@nomnom: Du meinst sicher `decode()` nach dem einlesen…

@MarcelF6: Die Kodierungsprobleme beim ``print`` könnten daran liegen, dass Du versuchst `unicode`-Objekte auszugeben ohne sie vorher in `str` zu konvertieren. Und zwar mit der Kodierung die das Programm erwartet, dass die Zeichen dann darstellen soll.

nomnom · Sonntag 18. März 2012, 09:33

BlackJack hat geschrieben:@nomnom: Du meinst sicher `decode()` nach dem einlesen…

Ja, meinte ich …

MarcelF6 · Sonntag 18. März 2012, 11:24

Danke euch beiden für die Hilfe.
@nomnom: Hast du es so gemeint? :

Code: Alles auswählen

def funktion(unicodeObjekt):
    '''Gib eine Datei auf der Standardausgabe aus.'''
    with open(unicodeObjekt, "r") as f:
	content = unicode(f.read().decode('utf-8'))
	return content.replace(u'ä', u'ae')

BlackJack · Sonntag 18. März 2012, 11:53

@MarcelF6: Erkläre mal was in der Zeile in der `content` an einen Wert gebunden wird in jedem einzelnen Schritt passiert. Welchen Typ haben zum Beispiel die jeweiligen Zwischenergebnisse und was machen die einzelnen Aufrufe? Da sollte Dir dann etwas auffallen.

Des weiteren ist der Funktionsname, der Name des Arguments, und der Docstring falsch, weil keines davon tatsächlich die Bedeutung korrekt wiedergibt. Also `funktion()` streng genommen schon, aber das ist an der Stelle doch ein wenig *zu* generisch um nützlich zu sein.

MarcelF6 · Sonntag 18. März 2012, 12:24

Jetzt habe ich es so:

Code: Alles auswählen

deffunktion(unicodeObjekt):
    '''Gib eine Datei auf der Standardausgabe aus.'''
    with open(unicodeObjekt, "r") as f:
	content = (f.read().decode('utf-8'))
	print content.replace(u'ä', u'ae')

(Um die Namen kümmere ich mich dann nachher

)
Also, bei der ersten Erwähnung von content wird der Dateiinhalt gelesen und nach UTF-8 dekodiert. [zum Testen habe ich in der Datei einige ä,ö,ü]
Das müsste eigentlich iO sein, denn mit print-Statements erhalte ich auch den korrekt-dargestellten Dateiinhalt.
Dann aber reklamiert meine shell schon wieder:

SyntaxError: Non-ASCII character '\xc3' in file 22.py on line 16, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

Das merkwürdige ist: Auch wenn ich Kommentare mit ä,ö,ü mache, kommt nun diese Fehlermeldung. Wieso? Ich habe doch das UTF-8-Format - da sollte dies kein Problem sein...

BlackJack · Sonntag 18. März 2012, 12:31

@MarcelF6: Es wird nicht *nach* UTF-8 dekodiert, sondern *von*.

Du hast Bytewerte ausserhalb von ASCII in Deiner Quelltextdatei, dann musst Du dem Compiler über den Kommentar mitteilen in welcher Kodierung die sind. Das hat nichts damit zu tun ob von dem Code in dem Skript Dateien geladen werden und in welcher Kodierung *die* vorliegen.

MarcelF6 · Sonntag 18. März 2012, 13:16

Und das mache ich so, oder:
# -*- coding: utf-8 -*-#

Also Code gesamthaft:

Code: Alles auswählen

# -*- coding: utf-8 -*-#

import sys

def funktion(unicodeObjekt):
    '''Gib eine Datei auf der Standardausgabe aus.'''
    with open(unicodeObjekt, "r") as f:
	content = (f.read().decode('utf-8'))
	print content.replace(u'ä', u'ae')
	
if len(sys.argv) < 2:
    print 'Es wurden keine Parameter uebergeben.'
    sys.exit()
else:
    funktion(sys.argv[1])

Also eigentlich kann ich die Antwort so schon geben: Nein, so klappt es nicht. Obwohl ich gelesen habe, dass es so klappen müsste.

BlackJack · Sonntag 18. März 2012, 13:41

@MarcelF6: Da ist jetzt wieder die Frage was „klappt nicht” konkret bedeutet. Die Ausnahme das der Quelltext Zeichen ausserhalb ASCII enthält ohne das eine Kodierung angegeben ist, sollte zumindest nicht mehr kommen.

Was jetzt noch passieren kann, was ich aber auch schon erwähnt habe, ist das nicht erraten werden kann was der Prozess am anderen Ende der Standardausgabe für eine Kodierung erwartet. Dann wird dafür ASCII angenommen und das geht natürlich nicht wenn in dem `unicode`-Objekt, welches ausgegeben werden soll, etwas ausserhalb von ASCII enthalten sein sollte.