Seite 1 von 1

Wikipedia als Text auslesen

Verfasst: Samstag 13. September 2008, 10:12
von KC853
Moin,
ich bin absoluter Python Neuling und möchte meine ersten Gehversuche mit einem Script zur Wikipedia Suche anstellen.

Die Idee ist das XML was eine (Browser)Abfrage auf zB
http://de.wikipedia.org/wiki/Spezial:Ex ... ersprache)
liefert, auzubereiten und den wichtigen Inhalt als Text zur Verfügung zu haben.


Leider liefert meine Anfrage

Code: Alles auswählen

Base_URL = "http://de.wikipedia.org/wiki/Spezial:Exportieren/python_(Programmiersprache)"
WebSock = urllib.urlopen(Base_URL)  
WebHTML = WebSock.read()            
WebSock.close()                     
 
print WebHTML
nicht das erwartete XML, sondern eine Wikipedia Fehlermeldung. Hat jemand einen ersten Hinweis?

Gruß KC853

Re: Wikipedia als Text auslesen

Verfasst: Samstag 13. September 2008, 10:23
von Leonidas
Hallo KC853, willkommen im Forum,
KC853 hat geschrieben:sondern eine Wikipedia Fehlermeldung. Hat jemand einen ersten Hinweis?
Naja, wenn du schon eine Fehlermeldung hast, warum sagst du uns die nicht auch?

Letztendlich vermute ich, dass Wikipedia schlicht und einfach deinen User-Agent nicht mag.

Verfasst: Samstag 13. September 2008, 10:33
von KC853
naja, die Fehlermeldung kommt als HTML zurück, ohne hifreichen Inhalt.

An den User-Agent habe ich auch schon gedacht. Kann ich den setzen?

Verfasst: Samstag 13. September 2008, 10:37
von Leonidas
KC853 hat geschrieben:Kann ich den setzen?
Ja, ist ein ganz normaler Header.

Aber: Da Wikipedia den User Agent sperrt wollen die nicht dass zufällige Programme die Seite runterladen und scrapen etc. Du solltest deinen eigenen User-Agent setzen (also nicht als Browser maskieren) und die ``robots.txt`` beachten. Ggf. bei Wikipedia anfragen, wie die das am liebsten gehandhabt hätten.

Verfasst: Sonntag 14. September 2008, 19:50
von KC853
Jou, war der User-Agent. Neue Schwierigkeit in anderem Thread ...