ich parse mit beautiful soup verschiedene webseiten. bei deutschen webseiten habe ich allerdings probleme mit den sonderzeichen und die Ausgabe schaut dann beispielsweise so aus:
Großglockner: Aktivwoche für Singles
gibt es da eine möglichkeit die ausgabe korrekt darszustellen? ich hab mal
# -*- coding: utf-8 -*-
angegeben, aber das hilft leider auch nit
encoding problem
- birkenfeld
- Python-Forum Veteran
- Beiträge: 1603
- Registriert: Montag 20. März 2006, 15:29
- Wohnort: Die aufstrebende Universitätsstadt bei München
Die Ausgabe ist schon UTF-8, das Problem ist wohl eher, dass den Ausgabemedium (Terminal?) dieses nicht erkennt bzw. eingestellt hat.
Tja .... die Eclipse-Hilfe verweist da u.a auf den Java-Quellcode.
Man kann in Windows->Preferences->General->Workspaces das Encoding für die Text-Editoren des Source-Codes einstellen, voreingestellt ist 'cp1252' und ich habe es erst einmal dabei belassen, utf-8 steht aber auch zur Auswahl.
Mein Konsolenfenster hat Umlaute bisher klaglos mitgemacht. Ob obige Einstellungen dieses Fenster miteinstellen, kann ich auf einen ersten Blick auf die Sache nicht erkennen. Die Hilfe verweist übrigens auch auf Änderungen am Java-Quellcode von Class ResourcesPlugin (Java).
Man kann in Windows->Preferences->General->Workspaces das Encoding für die Text-Editoren des Source-Codes einstellen, voreingestellt ist 'cp1252' und ich habe es erst einmal dabei belassen, utf-8 steht aber auch zur Auswahl.
Mein Konsolenfenster hat Umlaute bisher klaglos mitgemacht. Ob obige Einstellungen dieses Fenster miteinstellen, kann ich auf einen ersten Blick auf die Sache nicht erkennen. Die Hilfe verweist übrigens auch auf Änderungen am Java-Quellcode von Class ResourcesPlugin (Java).
[color=green][size=75]Never use idle.pyw, if you need sys.stdin[/size][/color]