Umlaute in Pyscripter

snafu · Freitag 23. Dezember 2011, 15:34

BlackJack hat geschrieben:@snafu: Um diesen Quatsch muss sich der Benutzer immer selber kümmern. Das ist auch unabhängig von Python 2 vs. Python 3.

Dem Benutzer kann aber eine sinnvolle Voreinstellung an die Hand gegeben werden (also UTF-8 statt ASCII), oder liege ich damit jetzt völlig falsch?

jerch · Freitag 23. Dezember 2011, 15:51

snafu hat geschrieben:Dem Benutzer kann aber eine sinnvolle Voreinstellung an die Hand gegeben werden (also UTF-8 statt ASCII), oder liege ich damit jetzt völlig falsch?

Microsoft hat UTF-8 erst sehr spät als Standard anerkannt (wohl eher zähneknischend), ich glaube es wird erst seit SP3 für XP oder gar Vista als Option angeboten. Bei UTF-16 vs UFT-32 geht Windows auch einen anderen Weg, d.h. nichtmal die interne Unicoderepräsentation in Python ist gleich zu Linuxdistributionen. Das Encoding-Gewurschtel ist schon ziemlich nervig.
Jeder, der da nun ein Tool, IDE oder was auch immer schreiben will, welches plattformübergreifend funktionieren soll, muss zwangsläufig diese Eigenheiten beachten.

@Kebap:
Hmm, das würde ich jetzt doch als Bug von PyScripter ansehen, da scheint weder Input- noch Outputencoding der Shell gesetzt zu sein.
Stell den Editor bitte mal auf ANSI um und erstell die Datei neu, d.h. schreib die Umlaute von der Tastatur aus. Als coding-Directive würde ich cp1252 und cp850 probieren. Wie geht er mit Unicodestrings aus der Datei in der Shell um?

Kebap · Freitag 23. Dezember 2011, 16:01

Hi jerch,

wenn ich folgende Datei als ANSI speichere:

Code: Alles auswählen

# -*- coding: cp1252 -*-
print "äöü"

erhalte ich diesen Output:

Code: Alles auswählen

*** Python 2.7.2 (default, Jun 12 2011, 15:08:59) [MSC v.1500 32 bit (Intel)] on win32. ***
*** Remote Python engine  is active ***
>>> 
*** Remote Interpreter Reinitialized  ***
>>> 
äöü
>>> print "äöü"
Ã¤Ã¶Ã¼
>>>

Anscheinend funktioniert also schonmal irgendwas, wenn auch kein UTF-8..

jerch · Freitag 23. Dezember 2011, 16:03

Ah das ist gut. Kannst Du die Shelleingabe auch umstellen? Dann sollte der Bytesalat am Ende auch verschwinden.

snafu · Freitag 23. Dezember 2011, 16:15

jerch hat geschrieben:
snafu hat geschrieben:Dem Benutzer kann aber eine sinnvolle Voreinstellung an die Hand gegeben werden (also UTF-8 statt ASCII), oder liege ich damit jetzt völlig falsch?
Microsoft hat UTF-8 erst sehr spät als Standard anerkannt (wohl eher zähneknischend), ich glaube es wird erst seit SP3 für XP oder gar Vista als Option angeboten. Bei UTF-16 vs UFT-32 geht Windows auch einen anderen Weg, d.h. nichtmal die interne Unicoderepräsentation in Python ist gleich zu Linuxdistributionen. Das Encoding-Gewurschtel ist schon ziemlich nervig.
Jeder, der da nun ein Tool, IDE oder was auch immer schreiben will, welches plattformübergreifend funktionieren soll, muss zwangsläufig diese Eigenheiten beachten.

Code: Alles auswählen

encoding = 'cp1252' if on_windows else 'utf-8'

...eine simple Zeile für eine Voreinstellung, die unter Umständen viele Probleme lösen kann.

Naja, will mich jetzt nicht dran aufhängen...

jerch · Freitag 23. Dezember 2011, 16:30

snafu hat geschrieben:
Code: Alles auswählen
encoding = 'cp1252' if on_windows else 'utf-8'
...eine simple Zeile für eine Voreinstellung, die unter Umständen viele Probleme lösen kann.

Naja, will mich jetzt nicht dran aufhängen...

Damit deckst Du nur die Westeuropäischen Sprachen ab. Der Nutzer könnte genauso gut kyrillische Strings ausgeben wollen (cp1251). Eben deshalb muss sich der Nutzer bei Verwenden einer lokalisierten Charmap selbst drum kümmern.

snafu · Sonntag 25. Dezember 2011, 23:16

jerch hat geschrieben:
snafu hat geschrieben:
Code: Alles auswählen
encoding = 'cp1252' if on_windows else 'utf-8'
...eine simple Zeile für eine Voreinstellung, die unter Umständen viele Probleme lösen kann.

Naja, will mich jetzt nicht dran aufhängen...
Damit deckst Du nur die Westeuropäischen Sprachen ab. Der Nutzer könnte genauso gut kyrillische Strings ausgeben wollen (cp1251). Eben deshalb muss sich der Nutzer bei Verwenden einer lokalisierten Charmap selbst drum kümmern.

Ok, das stimmt. In Windows ist es stark spezialisiert.

Leonidas · Montag 26. Dezember 2011, 06:58

Kebap hat geschrieben:wenn ich folgende Datei als ANSI speichere:
Code: Alles auswählen
# -*- coding: cp1252 -*-
print "äöü"

Erstens ist ANSI kein Encoding, das wäre höchstens ASCII und zweitens ist diese Datei kein ASCII weil sie Umlaute erhält. Wie es mich immer aufregt, wenn Softwareautoren alle möglichen Begriffe "der vereinfachung halber" zusammenwerfen, so dass man immer selbst prüfen muss, was sich der Autor denn nun wieder gedacht hat.

Kebap · Montag 2. Januar 2012, 10:38

Folgendes funktioniert im Direktfenster auch:

Code: Alles auswählen

>>> print u"äöü"
äöü

Naja, damit werde ich wohl erstmal leben müssen.. :K