simples Programm, ließt eine Webseite aus, extrahiert einige Teile und soll sie in eine lokale HTML Datei schreiben.
Leider stolper ich schon wieder über die Encodings
Code: Alles auswählen
# -*- coding: utf-8 -*-
from urllib2 import urlopen
from lxml.html import parse
from lxml.etree import tostring
from lxml.html import HTMLParser
import socket
import re
import urllib
import os
socket.setdefaulttimeout(30)
def readInfos(url):
content=""
try:
response = parse(urlopen(url))
resp=response.xpath('//div[@class="film-heading"]')
content=content+tostring(resp[0], encoding="utf-8")
resp=response.xpath('//ul[@class="rating-list"]')
content=content+tostring(resp[0], encoding="utf-8")
resp=response.xpath('//div[@class="description-text"]')
content=content+tostring(resp[0], encoding="utf-8")
except Exception,e:
content=None
return content
f=open("test.html","w")
f.write('<html><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"/></head><body><link rel="stylesheet" type="text/css" href="http://a2.tvspielfilm.de/_css/combined.css.20140819152446.php"/>')
c=readInfos("http://www.tvspielfilm.de/tv-programm/sendung/elegy-oder-die-kunst-zu-lieben,107060705601.html")
f.write( c)
f.write("</body></html>)")
f.close()
d