Python & Django Webcrawler - White- & Blacklist erstellen

Django, Flask, Bottle, WSGI, CGI…
Antworten
Benutzeravatar
torun
User
Beiträge: 2
Registriert: Dienstag 8. Juli 2014, 09:31
Wohnort: Frankfurt am Main
Kontaktdaten:

Servus Leute,

ich will ein webbasiertes Tool basteln um Webseiten automatisch selektieren zu können bzw. filtern zu können.

Kurze Beschreibung:

Webbasiertes Tool - man sollte eine Excel-Liste mit vielen Domains(Webseiten) hochladen können. Das Tool soll im Hintergrund die Domains einzeln aus der Excel-Liste nehmen und die Webseiten analysieren.

Das Tool soll den Inhalt der Webseite analysieren mithilfe einer Filter-Liste, die vorher definiert wird. Die Filter-Liste beinhaltet Wörter wie bspw. "Sex, fi**en, Gang**ng" usw.

Der Sinn dahinter ist, dass zuvor in der Excel-Liste vorhandene Webseiten wie z.B. "www(.)youporn.de" gefiltert werden.

Das Tool soll mithilfe der Filter-Liste Webseiten, die Wörter aus der Filter-Liste enthalten in eine neue Excel-Tabelle einfügen. Die Excel-Tabelle soll natürlich auch runterladbar sein.

Am Ende soll das Tool eine Excel-Tabelle "Whitelist" mit sauberen Webseiten und/oder eine Excel-Tabelle "Blacklist" mit negativen Webseiten ausgeben.


Python & Django installiert. Erste Tests für die Funktion bereits gemacht. Alles funktioniert einwandfrei.
Ich beschäftige mich seit kurzem mit Python und Django und ich bin ziemlich motiviert und finde diese Programmiersprachen sehr interessant.
Bisher habe ich nur Erfahrungen im Bereich HTML/ CSS / JAVASCRIPT/ PHP/ MySQL.

Nun weiss ich nicht wie ich vorgehen soll - Ich dachte daran, dass ich so vorgehe:

- Crawler programmieren (URL nehmen und Webseite analysieren)
- Filter-Liste erstellen mit Wörtern
- Excel-Python-Package installieren
- Bedingungen in den Crawler mit einbinden (Wenn Filter-Wort1 auf Webseite XY, dann Webseite XY in neue Excel-Liste verschieben bzw. einfügen)
- Excel-Tabelle Upload ermöglichen
- White- & Blacklist zum Download anzeigen lassen

Kann mir jemand helfen? Hat jemand Erfahrung mit dieser Thematik?

Gerne können wir auch über andere Mittel miteinander kommunizieren (Video-Chat, Telefon, Treffen, whatever...)

Ich würde mich ziemlich freuen, wenn mir jemand helfen kann.
Sei ein Maßstab für Qualität. Manche Leute kennen kein Umfeld, in dem man nur Spitzenleistungen erwartet.

Besten Gruß
Torun
BlackJack

@torun: Das ist alles sehr allgemein gehalten und gleichzeitig ziemlich umfangreich und enthält keine konkrete Frage auf die man einfach antworten könnte. Es wirft mehr Fragen auf. Vielleicht hat deswegen noch niemand auf den Beitrag geantwortet.

Wie umfangreich wird der Crawler? Tatsächlich ein Crawler, also wird die Zielwebsite untersucht, oder wie die Formulierung im Beitrag auch vermuten lassen könnte nur die Webseite hinter der jeweiligen URL? Im ersten Fall ist das für sich genommen schon ein kleines Projekt würde ich sagen.

Das mit den Excel-Listen kommt in der Beschreibung für meinen Geschmack zu prominent vor, geradezu als wenn das ein Datenformat wäre mit dem man intern arbeiten würde, und nicht nur ein Format an der Aussenschnittstelle des Programms, also wo man nur Eingabedaten heraus holt und Ausgabedaten drin verpackt.

Worüber man sich auch noch Gedanken machen muss ist das Verbinden eines Crawlers mit der Webanwendung und wie man so einen länger laufenden Prozess aus der Webanwendung heraus ”begleitet”. Da würde sich zum Beispiel so etwas wie Celery anbieten um die Aufgaben zu kommunizieren. Oder man kommuniziert nur über eine Datenabank zwischen Crawler und Webanwendung.

Ich würde wahrscheinlich damit anfangen Anwendungsfälle für die Webanwendung zu beschreiben, um daraus dann ableiten zu können wie das Datenmodell und die Geschäftslogik aussehen muss.
Benutzeravatar
torun
User
Beiträge: 2
Registriert: Dienstag 8. Juli 2014, 09:31
Wohnort: Frankfurt am Main
Kontaktdaten:

Der Crawler soll nur die jeweilige URL untersuchen, sie soll keine Ober- oder Unterkategorien untersuchen.

Anhand einer im Crawler definierten Filter-Liste sollen Webseiten gefiltert werden nach Positiv / Negativ.

Ich habe bereits ein Excel-Package installiert und möchte auf der Webseite das Hochladen einer Excel-Datei ermöglichen, sodass der Crawler eine URL aus der Excel-Tabelle entnimmt und diese untersucht.
Anschließend soll der Crawler die untersuchte Webseite in eine neue Excel-Datei bzw. Excel-Tabelle die nach zwei Spalten White(positiv) / Black(negativ) geordnet ist, einfügen.

Meine Vorstellung ist, dass man eine unsortierte einspaltige Excel-Datei hochlädt, der Crawler nacheinander alle URL's untersucht (anhand einer vorher definierten Filter-Liste) und je nach dem ob die URL gut oder schlecht ist, werden die URL's in zwei unterschiedliche Spalten (White-/Blacklist) abgelegt.

Vielen Dank für jegliche Hilfen und Informationen
Sei ein Maßstab für Qualität. Manche Leute kennen kein Umfeld, in dem man nur Spitzenleistungen erwartet.

Besten Gruß
Torun
Antworten