Projekt "Suchmaschine"
Verfasst: Mittwoch 21. April 2021, 11:07
Hallo zusammen!
Ich bin ein Learning by Doing Typ und habe nun ein Projekt gestartet bei dem ich bei der Umsetzung auf Python gestoßen bin.
Um was gehts:
Ziel ist es eine "Suchmaschine" zu bauen, wenn man das so sagen kann. Es geht dabei um Stellenangebote. Ich bin hier in einer Nische unterwegs und es gibt ca. 10 Seiten auf denen diese Stellenangebote ausgeschrieben werden. Mich stört es, dass diese verteilt sind und ich hätte diese gerne auf einer Seite zusammengetragen. Am Ende sollen diese dann auch dynamisch auf einer Website dargestellt werden (hier möchte ich Wordpress verwenden, da ich mich dort schon ein wenig auskenne). Bei der Suche danach wie ich das ganze angehen könnte und wie ich an die Daten komme bin ich auf "web crawling" und "web scraping" gestoßen. Wenn ich es richtig verstanden habe machen beide zunächst das gleiche, Daten nach bestimmten Parametern im HTML Code durchsuchen. Der Unterschied liegt dann darin, dass crawling die Daten nur ausspuckt und scraping die Daten speichert? Ganz sicher bin ich mir hier noch nicht.
Jetzt habe ich schon die ersten Schritte gemacht und habe ein Python crawl "Programm", dass mir die Daten eines bestimmten Jobs ausspuckt (in meinem Fall ist das die itemprop="headline" und itemprop="description"). Was ich allerdings möchte ich das ganze dynamisch zu machen, heißt, ich möchte von den 10 verschiedenen Seite alle Stellenangebote die unter www.xyz.de/jobs sind herausfiltern und dann letztendlich im Optimalfall auf einer Wordpress Website zusammentragen.
Bin ich hier auf dem richtigen Weg und habt ihr Tipps für mich wie ich das dynamisch gestalten kann? Wie ich nämlich alles zusammentrage ohne eine bestimmte URL der Stellenauschreibung einzugeben und die Daten dann auf einer anderen Website übertrage.... da habe ich noch keinen Plan/Ansatz.
Merci!
Max
Ich bin ein Learning by Doing Typ und habe nun ein Projekt gestartet bei dem ich bei der Umsetzung auf Python gestoßen bin.
Um was gehts:
Ziel ist es eine "Suchmaschine" zu bauen, wenn man das so sagen kann. Es geht dabei um Stellenangebote. Ich bin hier in einer Nische unterwegs und es gibt ca. 10 Seiten auf denen diese Stellenangebote ausgeschrieben werden. Mich stört es, dass diese verteilt sind und ich hätte diese gerne auf einer Seite zusammengetragen. Am Ende sollen diese dann auch dynamisch auf einer Website dargestellt werden (hier möchte ich Wordpress verwenden, da ich mich dort schon ein wenig auskenne). Bei der Suche danach wie ich das ganze angehen könnte und wie ich an die Daten komme bin ich auf "web crawling" und "web scraping" gestoßen. Wenn ich es richtig verstanden habe machen beide zunächst das gleiche, Daten nach bestimmten Parametern im HTML Code durchsuchen. Der Unterschied liegt dann darin, dass crawling die Daten nur ausspuckt und scraping die Daten speichert? Ganz sicher bin ich mir hier noch nicht.
Jetzt habe ich schon die ersten Schritte gemacht und habe ein Python crawl "Programm", dass mir die Daten eines bestimmten Jobs ausspuckt (in meinem Fall ist das die itemprop="headline" und itemprop="description"). Was ich allerdings möchte ich das ganze dynamisch zu machen, heißt, ich möchte von den 10 verschiedenen Seite alle Stellenangebote die unter www.xyz.de/jobs sind herausfiltern und dann letztendlich im Optimalfall auf einer Wordpress Website zusammentragen.
Bin ich hier auf dem richtigen Weg und habt ihr Tipps für mich wie ich das dynamisch gestalten kann? Wie ich nämlich alles zusammentrage ohne eine bestimmte URL der Stellenauschreibung einzugeben und die Daten dann auf einer anderen Website übertrage.... da habe ich noch keinen Plan/Ansatz.
Merci!
Max