mechanize sonderzeichen problem
Verfasst: Dienstag 28. August 2012, 14:02
Moin,
ich hab hier ein Problem und weiß nicht mehr wirklich weiter.
Allem anschein nach liegt es nach an den bescheidenen erstellern der website:
Mal etwas output
Ergibt folgenden Output:
Dass das user@machine (unix shell) direkt nach dem output kommt ist schon mal mehr als verdächtig.
Der gesammte output der description ist:
Daher habe ich die starke Vermutung das python hier übers encoding stolpert, aus dem grund hab ich schon das
mit ins script eingebaut, leider ohne wirkung.
Jetzt zur eigentlichen Frage, wie schaffe ich es das python bzw. mechanize nicht über das dreckige encoding der page stolpert?
ich hab hier ein Problem und weiß nicht mehr wirklich weiter.
Allem anschein nach liegt es nach an den bescheidenen erstellern der website:
Mal etwas output
Code: Alles auswählen
#!/usr/bin/python2.7
# -*- coding: utf-8 -*-
import mechanize
import cookielib
url = "http://some.url"
br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=10)
br.addheaders = [('User-agent', 'Mozilla/5.0 (X11; Linux x86_64; rv:6.0) Gecko/20100101 Firefox/6.0')]
br.add_password( url, "user", "pass" )
response = br.open( url )
print response.read()
Code: Alles auswählen
[...]
<meta name="description" content="CYBERSHOP ist die benutzerfreundliche, individuelle und flexible Mietlösung für Internet-Shops. Vom fertigen Modul.Shop bis zum individuellen Shopping-Portal entwickeln wir maÃUSER@MACHINE
Der gesammte output der description ist:
Code: Alles auswählen
<meta name="description" content="CYBERSHOP ist die benutzerfreundliche, individuelle und flexible Mietlösung für Internet-Shops. Vom fertigen Modul.Shop bis zum individuellen Shopping-Portal entwickeln wir maßgeschneiderte Lösungen für Ihren Online-Shop.">
Code: Alles auswählen
# -*- coding: utf-8 -*-
Jetzt zur eigentlichen Frage, wie schaffe ich es das python bzw. mechanize nicht über das dreckige encoding der page stolpert?