Seite 1 von 1

encoding problem

Verfasst: Freitag 11. Mai 2007, 11:49
von roakin
ich parse mit beautiful soup verschiedene webseiten. bei deutschen webseiten habe ich allerdings probleme mit den sonderzeichen und die Ausgabe schaut dann beispielsweise so aus:

Großglockner: Aktivwoche für Singles

gibt es da eine möglichkeit die ausgabe korrekt darszustellen? ich hab mal

# -*- coding: utf-8 -*-

angegeben, aber das hilft leider auch nit

Verfasst: Freitag 11. Mai 2007, 11:57
von birkenfeld
Die Ausgabe ist schon UTF-8, das Problem ist wohl eher, dass den Ausgabemedium (Terminal?) dieses nicht erkennt bzw. eingestellt hat.

Verfasst: Freitag 11. Mai 2007, 12:15
von roakin
ich progse mit eclipse ... dh ich muss einen weg finden eclipse zu sagen die consolenausgabe soll utf-8encoded sein oder?

Verfasst: Freitag 11. Mai 2007, 12:36
von joost
Tja .... die Eclipse-Hilfe verweist da u.a auf den Java-Quellcode.

Man kann in Windows->Preferences->General->Workspaces das Encoding für die Text-Editoren des Source-Codes einstellen, voreingestellt ist 'cp1252' und ich habe es erst einmal dabei belassen, utf-8 steht aber auch zur Auswahl.

Mein Konsolenfenster hat Umlaute bisher klaglos mitgemacht. Ob obige Einstellungen dieses Fenster miteinstellen, kann ich auf einen ersten Blick auf die Sache nicht erkennen. Die Hilfe verweist übrigens auch auf Änderungen am Java-Quellcode von Class ResourcesPlugin (Java).