Nun zu meinem aktuellen Problem:
Ich sitze derzeit an so etwas wie einem Newscrawler. Dabei durchsuche ich hauptsächlich News-Webseiten und gebe deren Inhalt wieder. Dazu nutze ich BeautifulSoup, was ja Ergebnisse in UTF-8-Kodierung wieder gibt. So weit kein Problem, lässt sich automatisch in das richtige Format umwandeln.
Im Internet habe ich gelesen, dass es sich der interoperabilität wegen lohnt, dass Skript gleich am Anfang als UTF-8-kodiert zu markieren, sprich
Code: Alles auswählen
#!/usr/bin/env python
# -*- coding: utf-8 -*-
Nun habe ich mir einen Dictonary erstellt, in dem sich auch Worte mit Umlauten befinden, beispielsweise "Übersicht". Nach dem Kompillieren wird daraus aber "Ãœbersicht" und aus "Börse" wird "Börse". Ich hab schon die verschiedensten Decodierungs- und Encodierungsvarianten versucht. Oftmals bekomme ich aber diesen ascii-Fehler, dass ein bestimmtes Zeichen nicht umgewandelt werden kann. Habt ihr eine Idee was ich da tun kann?
MfG Blck
Hier noch der Code-Schnipsel:
Code: Alles auswählen
ntv_cat = {"Übersicht":"http://www.n-tv.de/rss", "Politik":"http://www.n-tv.de/politik/rss", "Wirtschaft":"http://www.n-tv.de/wirtschaft/rss",
"Börse":"http://www.n-tv.de/boerse/rss", "Sport":"http://www.n-tv.de/sport/rss", "Panorama":"http://www.n-tv.de/panorama/rss",
"Unterhaltung":"http://www.n-tv.de/unterhaltung/rss", "Auto":"http://www.n-tv.de/auto/rss", "Technik":"http://www.n-tv.de/technik/rss",
"Wissen":"http://www.n-tv.de/wissen/rss", "Ratgeber":"http://www.n-tv.de/ratgeber/rss", "Reise":"http://www.n-tv.de/reise/rss"}
ntv_cat_sorted = {}
ntv_cat_sorted = sorted(ntv_cat.items())
i = 0
for cat in ntv_cat_sorted:
kategorie = str(i)
print kategorie + ") " + cat[0]
i=i+1