PhantomJS - was ist das & wie benutze ich das in Python?
Verfasst: Montag 21. März 2016, 16:31
Hallo Leute,
ich habe hier ein Problem und hoffe daß Ihr mir da ein wenig behilflich sein könnt (wie immer wart ihr das dann auch).
Ich habe in meinem ersten Python-Projekt ein HTML-Parser/Scraper erstellt welches mir bestimmte Daten von einer Webseite ermittelt und in eine XML-Datei speichert.
Jetzt habe ich aber eine (Web-) Quelle die die Daten nicht in HTML ausgibt, zumindest nicht sofort sondern per JS 'nachladen tut' und erst im Browser 'abbildet' (zusammenstellt oder wie auch immer dieser Vorgang genannt wird).
So, mit urllib2 und BeutifulSoup komme ich hier also nicht weiter.
Ein wenig gegoogelt und hier und da ist das Stichwort 'PhantomJS' gefallen. Und das in Verbindung mit einem GhostDriver oder, in älteren Versionen einem 'Webdriver'.
Die Situation ist nun die daß ich nur Bahnhof verstehe.
Ich habe mir PhantomJS installiert (apt-get install ....) und würde gerne wissen
a) wie ich das nun in Python implementieren kann und was es auf sich hat mit dem 'Ghostdriver' und
b) wie ich das benutzen kann (falls hier jemand überhaupt Erfahrung damit hat. Denn PhantomJS wird ja wohl nichts mit Python zu tun haben ausser das man es in Python verwenden kann). Wenn sich jemand findet der wenigstens eine gute Dokumentation (HowTo, Manuals, Code-Examples u.ä.) hat die auch einem Semi-Amateur (also noch nicht einmal einen richtigen Amateur) halbwegs verständlich sein könnte, wäre ich wirklich dankbar wenn er dies mir mitteilen könnte.
Ich danke schon einmal im Voraus für eure Hilfe!
ich habe hier ein Problem und hoffe daß Ihr mir da ein wenig behilflich sein könnt (wie immer wart ihr das dann auch).
Ich habe in meinem ersten Python-Projekt ein HTML-Parser/Scraper erstellt welches mir bestimmte Daten von einer Webseite ermittelt und in eine XML-Datei speichert.
Jetzt habe ich aber eine (Web-) Quelle die die Daten nicht in HTML ausgibt, zumindest nicht sofort sondern per JS 'nachladen tut' und erst im Browser 'abbildet' (zusammenstellt oder wie auch immer dieser Vorgang genannt wird).
So, mit urllib2 und BeutifulSoup komme ich hier also nicht weiter.
Ein wenig gegoogelt und hier und da ist das Stichwort 'PhantomJS' gefallen. Und das in Verbindung mit einem GhostDriver oder, in älteren Versionen einem 'Webdriver'.
Die Situation ist nun die daß ich nur Bahnhof verstehe.
Ich habe mir PhantomJS installiert (apt-get install ....) und würde gerne wissen
a) wie ich das nun in Python implementieren kann und was es auf sich hat mit dem 'Ghostdriver' und
b) wie ich das benutzen kann (falls hier jemand überhaupt Erfahrung damit hat. Denn PhantomJS wird ja wohl nichts mit Python zu tun haben ausser das man es in Python verwenden kann). Wenn sich jemand findet der wenigstens eine gute Dokumentation (HowTo, Manuals, Code-Examples u.ä.) hat die auch einem Semi-Amateur (also noch nicht einmal einen richtigen Amateur) halbwegs verständlich sein könnte, wäre ich wirklich dankbar wenn er dies mir mitteilen könnte.
Ich danke schon einmal im Voraus für eure Hilfe!