Macht das Konzept Sinn ? Threads + Caching von Shop Daten

Sockets, TCP/IP, (XML-)RPC und ähnliche Themen gehören in dieses Forum
Antworten
debian75
User
Beiträge: 90
Registriert: Dienstag 27. November 2007, 01:05

Man stelle sich was ähnliches wie die ganzen Preisvergleich-Seiten vor. Ich möchte jedoch nur die Lieferbarkeit von Produkten in verschiedenen Online-Shops.

ich bin auf python gekommen, weil PHP kein threading erlaubt. je mehr ich mich einlese, desto mehr stosse ich aber auch auf beiträge mit problemen mit threads. ich hoffe mal es ist möglich ehrere urls gleichzeitig auszulesen und zu parsen, weil sonst kann ich mir die mühe pythong zu lernen sparen und gleich auf java ausweichen...wobei ich schon gerne python lernen würde, ist irgendwie süss :)

Konzept:

-> User sucht nach Produkt
-> Mehrere python scripts / threads werden gestartet (das geht doch oder ?)
-> die scripts parsen die websites nach Lieferbarkeit
-> jedes script legt ein file an mit der Lieferbarkeit

bei neuer suche nach gleichem produkt:

-> python schaut ob files vorhanden
-> wenn ja und files nicht älter als 60 min werden daten aus den files gelesen
-> wenn nein, werden files gelöscht und neue angelegt.


mach das konzept sinn ?
Benutzeravatar
gerold
Python-Forum Veteran
Beiträge: 5555
Registriert: Samstag 28. Februar 2004, 22:04
Wohnort: Oberhofen im Inntal (Tirol)
Kontaktdaten:

Hallo debian75!
debian75 hat geschrieben:ich hoffe mal es ist möglich ehrere urls gleichzeitig auszulesen und zu parsen
Dass das funktioniert, dürfte ich ja bereits bewiesen haben.

Wo das Problem bei deinem CGI-Skript liegt, hast du uns ja nicht mehr mitgeteilt. (Stichworte: cgitb und Serverlog)

debian75 hat geschrieben:mach das konzept sinn ?
Das lässt sich sicher so machen. Da sehe ich keine Schwierigkeit.

Zum Parsen der HTML-Daten würde ich http://www.crummy.com/software/BeautifulSoup/ verwenden.

Ich habe so etwas ähnliches schon mal angefangen. Allerdings wurde die Sache dadurch erschwert, dass manche Shops nichts ohne JavaScript oder Flash machen. Bei JavaScript kann man ja noch auslesen, welche Informationen erwartet werden. Was bei Flash nur ausgesnifft werden kann. Dann hatte ich es sogar mit einem Shop zu tun, dessen GUI in Java programmiert war. Da ging dann gar nichts. Da das einer der wichtigsten Shops für meinen Kunden war, haben wir das Projekt dann abgebrochen. Der Aufwand wäre einfach zu groß geworden.

Bevor ich also weiter machen würde, würde ich zuerst mal checken, ob man überall mit reinen HTTP-Mitteln an die gewünschte Information ran kommt.

Schau dir auch mal http://wwwsearch.sourceforge.net/mechanize/ an. Vielleicht kannst du damit etwas anfangen.

mfg
Gerold
:-)
http://halvar.at | Kleiner Bascom AVR Kurs
Wissen hat eine wunderbare Eigenschaft: Es verdoppelt sich, wenn man es teilt.
debian75
User
Beiträge: 90
Registriert: Dienstag 27. November 2007, 01:05

hallo gerold,

nach einigem mail verkehr mit meinem hoster habe ich festgestellt, dass mod_python deaktiviert ist und alles nur über cgi geht. zudem kann ich absolut nichts installieren, ich habe das problem deshalb nicht weiter verfolgt und mir python lokal auf meinen windows rechner installiert.

die seiten die ich ansprechen will funktionieren alle ohne flash oder java gui :)

grüsse

debian
Antworten