Seite 1 von 1
Python Web Crawler
Verfasst: Mittwoch 28. April 2010, 18:21
von ms4py
Hier ein kleiner Artikel zu den Grundlagen eines Web Crawlers in Python (Auslesen mit
urllib2 und Parsen mit
lxml). Erweiterte Funktionen wie `robots.txt`-Verarbeitung und Zerlegung des Inhalts in Tokens werden im nächsten Blogpost behandelt.
http://ms4py.org/2010/04/27/python-sear ... er-part-1/
Kritik und Anmerkungen sind (wie immer) gerne erwünscht.
Verfasst: Donnerstag 29. April 2010, 09:59
von mkesper
Der Syntaxhighlighter ist cool, kann der auch Positivdarstellung?
Verfasst: Donnerstag 29. April 2010, 10:31
von ms4py
mkesper hat geschrieben:Der Syntaxhighlighter ist cool, kann der auch Positivdarstellung?
Jop, gibt eine Menge von Color Schemes:
http://www.viper007bond.com/wordpress-p ... ghlighter/
Verfasst: Donnerstag 6. Mai 2010, 22:09
von ms4py
Teil 2:
http://ms4py.org/2010/05/06/python-sear ... er-part-2/
Performance:
Code: Alles auswählen
Total runtime: 25 min
Pages processed: 1963
Average: 1.265 Pages/s 75.927 Pages/min
Hinweis für Interessierte: Der Code zu Teil 3 ist im Repository schon verfügbar. Performance mit 8 Crawler-Threads:
Code: Alles auswählen
Total runtime: 7 min
Pages processed: 1862
Average: 3.919 Pages/s 235.170 Pages/min