ich bin gerade dabei meiner DVD-Verwaltung (jaja, mir ist nichts besseres zum experimentieren eingefallen etwas Eigenleben einzuhauchen. Die Idee: Ich lasse einfach einige Felder direkt aus der Datenbank von imdb.com befüllen. Zum parsen des .html bin ich auf Beautiful Soup gestoßen, hat anfänglich auch super funktioniert, doch nun stecke ich fest und hoffe ihr könnt mir weiterhelfen
Ich will den Inhalt einiger <div class=info> Tags auslesen und kann nicht rausfinden wie ich das anstellen soll, mein Testcode sieht dzt. so aus:
Code: Alles auswählen
import urllib2, string
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen("http://www.imdb.com/title/tt0078875/")
soup = BeautifulSoup(page)
titleTag = soup.html.head.title
TITLE=(string.split(titleTag.string, "("))[0] # TODO: Diese beiden Zeilen zusammenfassen
tmp=(string.split(titleTag.string, "("))[1] #
RELJAHR=(string.split(tmp, ")"))[0]
print "Titel:", TITLE
print "Erscheinungsdatum:", RELJAHR
tmp=soup.findAll("div", { "class" : "info" })
print tmp[0]
"3 May 1979 (West Germany)" ran (oder bei tmp[1] "Genre" das "Drama") ?
Meine erste Idee war mich da mit readline oder so irgendwie 'runterzuhangeln', doch das erscheint mir irgendwie nicht die sauberste Lösung zu sein :] Weiß jemand von euch Rat ?
Vielen Dank,
Stefan