Wikipedia als Text auslesen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
KC853
User
Beiträge: 5
Registriert: Freitag 12. September 2008, 20:24

Samstag 13. September 2008, 10:12

Moin,
ich bin absoluter Python Neuling und möchte meine ersten Gehversuche mit einem Script zur Wikipedia Suche anstellen.

Die Idee ist das XML was eine (Browser)Abfrage auf zB
http://de.wikipedia.org/wiki/Spezial:Ex ... ersprache)
liefert, auzubereiten und den wichtigen Inhalt als Text zur Verfügung zu haben.


Leider liefert meine Anfrage

Code: Alles auswählen

Base_URL = "http://de.wikipedia.org/wiki/Spezial:Exportieren/python_(Programmiersprache)"
WebSock = urllib.urlopen(Base_URL)  
WebHTML = WebSock.read()            
WebSock.close()                     
 
print WebHTML
nicht das erwartete XML, sondern eine Wikipedia Fehlermeldung. Hat jemand einen ersten Hinweis?

Gruß KC853
Leonidas
Administrator
Beiträge: 16024
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Samstag 13. September 2008, 10:23

Hallo KC853, willkommen im Forum,
KC853 hat geschrieben:sondern eine Wikipedia Fehlermeldung. Hat jemand einen ersten Hinweis?
Naja, wenn du schon eine Fehlermeldung hast, warum sagst du uns die nicht auch?

Letztendlich vermute ich, dass Wikipedia schlicht und einfach deinen User-Agent nicht mag.
My god, it's full of CARs! | Leonidasvoice vs Modvoice
KC853
User
Beiträge: 5
Registriert: Freitag 12. September 2008, 20:24

Samstag 13. September 2008, 10:33

naja, die Fehlermeldung kommt als HTML zurück, ohne hifreichen Inhalt.

An den User-Agent habe ich auch schon gedacht. Kann ich den setzen?
Leonidas
Administrator
Beiträge: 16024
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Samstag 13. September 2008, 10:37

KC853 hat geschrieben:Kann ich den setzen?
Ja, ist ein ganz normaler Header.

Aber: Da Wikipedia den User Agent sperrt wollen die nicht dass zufällige Programme die Seite runterladen und scrapen etc. Du solltest deinen eigenen User-Agent setzen (also nicht als Browser maskieren) und die ``robots.txt`` beachten. Ggf. bei Wikipedia anfragen, wie die das am liebsten gehandhabt hätten.
My god, it's full of CARs! | Leonidasvoice vs Modvoice
KC853
User
Beiträge: 5
Registriert: Freitag 12. September 2008, 20:24

Sonntag 14. September 2008, 19:50

Jou, war der User-Agent. Neue Schwierigkeit in anderem Thread ...
Antworten