ich versuche einen RSS Feed zu streamen. Den Feed findet ihr unter http://www.lse.co.uk/chat/recent/. Aktuell funktioniert das einmalige Ausgeben der letzten feeds ganz gut, meine Probleme sind dennoch
1.) Die Automatisierung
2.) Die Gewaehrleistung, dass kein Kommentar fehlt bzw. kein Kommentar doppelt vorkommt
Code: Alles auswählen
import urllib2
from urllib2 import urlopen
import re
import cookielib
from cookielib import CookieJar
import time
oj = CookieJar()
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(oj))
opener.addheaders = [{'User-agent','Mozilla/5.0'}]
def main():
try:
read = urllib2.urlopen('http://www.lse.co.uk/chat/recent/').read()
#print read
try:
titles = re.findall(r'<title>(.*?)</title>',read)
descriptions = re.findall(r'<description>(.*?)</description>',read)
pubDates = re.findall(r'<pubDate>(.*?)</pubDate>',read)
#links = re.findall(r'<link.*?href="(.*?)"',read)
for title in titles:
print title
for description in descriptions:
print description
for pubDate in pubDates:
print pubDate
except Exception, e:
print 'mistake'
except Exception, e:
print 'mistake'
main()
- die Main() wird automatisch jede Minute A ausgefuehrt
- Dabei werden nur xml-items betrachtet (Datensaetze ausgelesen) deren timestamp-Minute B mit der Minute A uebereinstimmt. So wuerde das Auslesen der RSS Feeds quasi automatisch ablaufen und da ich immer nur die Kommentare einer bestimmten Minute abfrage, kann es keine Dubletten geben.
Schoene Theorie ... aber leider habe ich ueberhaupt keine Ahnung wie ich das implementieren soll. Ueber hilfe vorallem in Form von Beispiel Code freue ich mich sehr!
Tausend Dank!