Das deutsche Python-Forum

Moin,
ich bin absoluter Python Neuling und möchte meine ersten Gehversuche mit einem Script zur Wikipedia Suche anstellen.

Die Idee ist das XML was eine (Browser)Abfrage auf zB
http://de.wikipedia.org/wiki/Spezial:Ex ... ersprache)
liefert, auzubereiten und den wichtigen Inhalt als Text zur Verfügung zu haben.

Leider liefert meine Anfrage

Code: Alles auswählen

Base_URL = "http://de.wikipedia.org/wiki/Spezial:Exportieren/python_(Programmiersprache)"
WebSock = urllib.urlopen(Base_URL)  
WebHTML = WebSock.read()            
WebSock.close()                     
 
print WebHTML

nicht das erwartete XML, sondern eine Wikipedia Fehlermeldung. Hat jemand einen ersten Hinweis?

Gruß KC853

Hallo KC853, willkommen im Forum,

KC853 hat geschrieben:sondern eine Wikipedia Fehlermeldung. Hat jemand einen ersten Hinweis?

Naja, wenn du schon eine Fehlermeldung hast, warum sagst du uns die nicht auch?

Letztendlich vermute ich, dass Wikipedia schlicht und einfach deinen User-Agent nicht mag.

naja, die Fehlermeldung kommt als HTML zurück, ohne hifreichen Inhalt.

An den User-Agent habe ich auch schon gedacht. Kann ich den setzen?

KC853 hat geschrieben:Kann ich den setzen?

Ja, ist ein ganz normaler Header.

Aber: Da Wikipedia den User Agent sperrt wollen die nicht dass zufällige Programme die Seite runterladen und scrapen etc. Du solltest deinen eigenen User-Agent setzen (also nicht als Browser maskieren) und die ``robots.txt`` beachten. Ggf. bei Wikipedia anfragen, wie die das am liebsten gehandhabt hätten.

Jou, war der User-Agent. Neue Schwierigkeit in anderem Thread ...

Das deutsche Python-Forum

Wikipedia als Text auslesen

Wikipedia als Text auslesen

Re: Wikipedia als Text auslesen