Python & Django Webcrawler - White- & Blacklist erstellen
Verfasst: Mittwoch 23. Juli 2014, 12:21
Servus Leute,
ich will ein webbasiertes Tool basteln um Webseiten automatisch selektieren zu können bzw. filtern zu können.
Kurze Beschreibung:
Webbasiertes Tool - man sollte eine Excel-Liste mit vielen Domains(Webseiten) hochladen können. Das Tool soll im Hintergrund die Domains einzeln aus der Excel-Liste nehmen und die Webseiten analysieren.
Das Tool soll den Inhalt der Webseite analysieren mithilfe einer Filter-Liste, die vorher definiert wird. Die Filter-Liste beinhaltet Wörter wie bspw. "Sex, fi**en, Gang**ng" usw.
Der Sinn dahinter ist, dass zuvor in der Excel-Liste vorhandene Webseiten wie z.B. "www(.)youporn.de" gefiltert werden.
Das Tool soll mithilfe der Filter-Liste Webseiten, die Wörter aus der Filter-Liste enthalten in eine neue Excel-Tabelle einfügen. Die Excel-Tabelle soll natürlich auch runterladbar sein.
Am Ende soll das Tool eine Excel-Tabelle "Whitelist" mit sauberen Webseiten und/oder eine Excel-Tabelle "Blacklist" mit negativen Webseiten ausgeben.
Python & Django installiert. Erste Tests für die Funktion bereits gemacht. Alles funktioniert einwandfrei.
Ich beschäftige mich seit kurzem mit Python und Django und ich bin ziemlich motiviert und finde diese Programmiersprachen sehr interessant.
Bisher habe ich nur Erfahrungen im Bereich HTML/ CSS / JAVASCRIPT/ PHP/ MySQL.
Nun weiss ich nicht wie ich vorgehen soll - Ich dachte daran, dass ich so vorgehe:
- Crawler programmieren (URL nehmen und Webseite analysieren)
- Filter-Liste erstellen mit Wörtern
- Excel-Python-Package installieren
- Bedingungen in den Crawler mit einbinden (Wenn Filter-Wort1 auf Webseite XY, dann Webseite XY in neue Excel-Liste verschieben bzw. einfügen)
- Excel-Tabelle Upload ermöglichen
- White- & Blacklist zum Download anzeigen lassen
Kann mir jemand helfen? Hat jemand Erfahrung mit dieser Thematik?
Gerne können wir auch über andere Mittel miteinander kommunizieren (Video-Chat, Telefon, Treffen, whatever...)
Ich würde mich ziemlich freuen, wenn mir jemand helfen kann.
ich will ein webbasiertes Tool basteln um Webseiten automatisch selektieren zu können bzw. filtern zu können.
Kurze Beschreibung:
Webbasiertes Tool - man sollte eine Excel-Liste mit vielen Domains(Webseiten) hochladen können. Das Tool soll im Hintergrund die Domains einzeln aus der Excel-Liste nehmen und die Webseiten analysieren.
Das Tool soll den Inhalt der Webseite analysieren mithilfe einer Filter-Liste, die vorher definiert wird. Die Filter-Liste beinhaltet Wörter wie bspw. "Sex, fi**en, Gang**ng" usw.
Der Sinn dahinter ist, dass zuvor in der Excel-Liste vorhandene Webseiten wie z.B. "www(.)youporn.de" gefiltert werden.
Das Tool soll mithilfe der Filter-Liste Webseiten, die Wörter aus der Filter-Liste enthalten in eine neue Excel-Tabelle einfügen. Die Excel-Tabelle soll natürlich auch runterladbar sein.
Am Ende soll das Tool eine Excel-Tabelle "Whitelist" mit sauberen Webseiten und/oder eine Excel-Tabelle "Blacklist" mit negativen Webseiten ausgeben.
Python & Django installiert. Erste Tests für die Funktion bereits gemacht. Alles funktioniert einwandfrei.
Ich beschäftige mich seit kurzem mit Python und Django und ich bin ziemlich motiviert und finde diese Programmiersprachen sehr interessant.
Bisher habe ich nur Erfahrungen im Bereich HTML/ CSS / JAVASCRIPT/ PHP/ MySQL.
Nun weiss ich nicht wie ich vorgehen soll - Ich dachte daran, dass ich so vorgehe:
- Crawler programmieren (URL nehmen und Webseite analysieren)
- Filter-Liste erstellen mit Wörtern
- Excel-Python-Package installieren
- Bedingungen in den Crawler mit einbinden (Wenn Filter-Wort1 auf Webseite XY, dann Webseite XY in neue Excel-Liste verschieben bzw. einfügen)
- Excel-Tabelle Upload ermöglichen
- White- & Blacklist zum Download anzeigen lassen
Kann mir jemand helfen? Hat jemand Erfahrung mit dieser Thematik?
Gerne können wir auch über andere Mittel miteinander kommunizieren (Video-Chat, Telefon, Treffen, whatever...)
Ich würde mich ziemlich freuen, wenn mir jemand helfen kann.