Projekt...
Verfasst: Donnerstag 11. September 2008, 22:30
Hallo,
ich habe mir irgendwie in den Kopf gesetzt, so eine Art Webcrawler zu basteln, der alle URLs mit IP des WWW in einer Datenbank speichern soll (ich weiß, dass das ein fast unmögliches Projekt ist..., aber versuchen kann man es ja...). Nun habe ich etwas überlegt, wie ich das am "performantesten" anstellen könnte. Hier die Grafik. Ich will das ganze in drei Große Einheiten Gliedern: Parser, Downloader, Verwalter. Alle arbeiten parallel. Wobei der "Verwalter" die Hauptaufgabe bekommen soll und in gewisser Weise "intelligent" URLs in einemm Cache behält und wenn diese nicht zu großer Wahrscheinlichkeit nicht mehr benutzt werden, in den dauerhaften Speicher - die Datenbank - ablegt... Er sollte auch steuern, wenn ein Thread zB hinterhängt, dass er mit mehr Power gefüllt wird... (Mehr worker).
Nunja, das grobe Konzept ist schon in meinem Kopf. Nun habe ich aber leider keine Ahnung wo und wie ich anfangen soll. Vor allem habe ich absolut keine Ahnung davon, wie ich die einzelnen "Threads" gestalten soll und wie diese am besten miteinander kommunizieren. Ich wäre mit ein paar Stichworten und Ideen zufrieden und müsste mich halt einlesen. Außerdem bin ich über Kritik an dem Konzept/der Idee auch sehr froh...
Was will ich damit? Als erstes mal eine riesen Menge an Daten, die man dann evtl. in eine Internet-Karte umsetzen könnte oder sonstiges... Ich weiß es eben nicht genau und es war eine fixe Idee, die mir nicht mehr aus dem Kopf geht... Nun hoffe ich auf ein paar Tipps von euch, die mir den Einstieg etwas erleichtern.
Danke!
MfG
ich habe mir irgendwie in den Kopf gesetzt, so eine Art Webcrawler zu basteln, der alle URLs mit IP des WWW in einer Datenbank speichern soll (ich weiß, dass das ein fast unmögliches Projekt ist..., aber versuchen kann man es ja...). Nun habe ich etwas überlegt, wie ich das am "performantesten" anstellen könnte. Hier die Grafik. Ich will das ganze in drei Große Einheiten Gliedern: Parser, Downloader, Verwalter. Alle arbeiten parallel. Wobei der "Verwalter" die Hauptaufgabe bekommen soll und in gewisser Weise "intelligent" URLs in einemm Cache behält und wenn diese nicht zu großer Wahrscheinlichkeit nicht mehr benutzt werden, in den dauerhaften Speicher - die Datenbank - ablegt... Er sollte auch steuern, wenn ein Thread zB hinterhängt, dass er mit mehr Power gefüllt wird... (Mehr worker).
Nunja, das grobe Konzept ist schon in meinem Kopf. Nun habe ich aber leider keine Ahnung wo und wie ich anfangen soll. Vor allem habe ich absolut keine Ahnung davon, wie ich die einzelnen "Threads" gestalten soll und wie diese am besten miteinander kommunizieren. Ich wäre mit ein paar Stichworten und Ideen zufrieden und müsste mich halt einlesen. Außerdem bin ich über Kritik an dem Konzept/der Idee auch sehr froh...
Was will ich damit? Als erstes mal eine riesen Menge an Daten, die man dann evtl. in eine Internet-Karte umsetzen könnte oder sonstiges... Ich weiß es eben nicht genau und es war eine fixe Idee, die mir nicht mehr aus dem Kopf geht... Nun hoffe ich auf ein paar Tipps von euch, die mir den Einstieg etwas erleichtern.
Danke!
MfG