Python Web Crawler

Gute Links und Tutorials könnt ihr hier posten.
Antworten
ms4py
User
Beiträge: 1178
Registriert: Montag 19. Januar 2009, 09:37

Hier ein kleiner Artikel zu den Grundlagen eines Web Crawlers in Python (Auslesen mit urllib2 und Parsen mit lxml). Erweiterte Funktionen wie `robots.txt`-Verarbeitung und Zerlegung des Inhalts in Tokens werden im nächsten Blogpost behandelt.

http://ms4py.org/2010/04/27/python-sear ... er-part-1/

Kritik und Anmerkungen sind (wie immer) gerne erwünscht.
„Lieber von den Richtigen kritisiert als von den Falschen gelobt werden.“
Gerhard Kocher

http://ms4py.org/
Benutzeravatar
mkesper
User
Beiträge: 919
Registriert: Montag 20. November 2006, 15:48
Wohnort: formerly known as mkallas
Kontaktdaten:

Der Syntaxhighlighter ist cool, kann der auch Positivdarstellung?
ms4py
User
Beiträge: 1178
Registriert: Montag 19. Januar 2009, 09:37

mkesper hat geschrieben:Der Syntaxhighlighter ist cool, kann der auch Positivdarstellung?
Jop, gibt eine Menge von Color Schemes: http://www.viper007bond.com/wordpress-p ... ghlighter/
„Lieber von den Richtigen kritisiert als von den Falschen gelobt werden.“
Gerhard Kocher

http://ms4py.org/
ms4py
User
Beiträge: 1178
Registriert: Montag 19. Januar 2009, 09:37

Teil 2: http://ms4py.org/2010/05/06/python-sear ... er-part-2/

Performance:

Code: Alles auswählen

Total runtime: 25 min
Pages processed: 1963
Average: 1.265 Pages/s 75.927 Pages/min

Hinweis für Interessierte: Der Code zu Teil 3 ist im Repository schon verfügbar. Performance mit 8 Crawler-Threads:

Code: Alles auswählen

Total runtime: 7 min
Pages processed: 1862
Average: 3.919 Pages/s 235.170 Pages/min 
„Lieber von den Richtigen kritisiert als von den Falschen gelobt werden.“
Gerhard Kocher

http://ms4py.org/
Antworten