Das deutsche Python-Forum

Hallo,

ich habe ein Problem mit urllib2, bei dem ich nicht weiter weiß. Wenn ich versuche, die Ergebnisseite (zb http://web.archive.org/web/*/http://www.python-forum.de) des Internet Archives aufzurufen, bekomme ich nur wilde Sonderzeichen ausgegeben. Alle andere Seiten auf archive.org wie auch andere Internetseiten liefern den erwarteten Quellcode der Seite.
Dieses Verhalten zeigt sich seit zwei Wochen, also scheint vermutlich etwas am Server umgestellt worden zu sein, da ich an Python nichts geändert habe. Wenn ich im Script urllib2 durch urllib ersetze, bekomme ich den richtigen Quellcode.

Hier das (Standard)-Skript:

Code: Alles auswählen

import urllib2

url = 'http://web.archive.org/web/*/http://www.python-forum.de'

f = urllib2.urlopen(url)
text = f.read()
print text

Weiß jemand Rat?

Danke und Gruß

web.archive.org scheint die Antwort mit gzip zu komprimieren, sobald ein `Accept-Encoding`-Header bei der HTTP-Anfrage mitgeschickt wird, und die urllib2 schickt im Gegensatz zur urllib einen `Accept-Encoding`-Header mit.

Danke, jetzt funktionierts.

Für die Akten:

Code: Alles auswählen

import StringIO
compressedstream = StringIO.StringIO(text)   
import gzip
gzipper = gzip.GzipFile(fileobj=compressedstream)      
text = gzipper.read()

Das deutsche Python-Forum

urllib2 liefert Kauderwelsch bei Abfrage des Internet Archiv

urllib2 liefert Kauderwelsch bei Abfrage des Internet Archiv