Suchmaschine Programmieren
Verfasst: Freitag 1. August 2008, 09:59
Hallo
Ja ihr habe richtig gelesen ich will eine Suchmaschine Programmieren.
Ich habe mir auch schon 1 Terabyte Speicher gekauft.
Ich habe mit das so gedacht:
Ich setze einfach die Buchstaben vom Alphabet der Reihe nach zusammen und schauhe ob was vorhanden ist, wenn ja dann soll allen Links auf der Seite nachgeganen werden und deren Links usw.
[EDIT]
Nur wie bekomme ich die Keywörter aus den Seite heraus?
Text sieht ja so aus:
>Seite Kress wurde bearbeitet</
Nur wenn ich mit "re.findall('>.*</', keyhtml)" dann bekomme ich halt alles zurück was so "> </" geschrieben ist zurück.
[EDIT]:
Das ist gelöst:
Jetzt zum Problem ich bin soweit das ich die Links auf den Seiten finde.
Nur wie bekomme ich die links "sauber"
z.B:
<a href="ueber_die_hardware.htm">
<a href="topic-15572.html" class="topictitle">problems with cherrypy`s http auth using wsgiref</a>
<a target="_blank" href="http://www.flf-book.de/Benutzer/cnc4all.htm">
ich möchte nur den Link und nicht in welcher Frame der sich öffnen soll.
Mit "replace" kann man ja nach den Standart Framen Suchen aber nicht nach selbst gemachrn mit anderem Namen.
Wie macht man das am leichtesten. Ich habe was Versucht den link auzuspalten und in eine Liste zu Backen das ich besser suchen kann aber das hat nicht Funktioniert.
Lösung:
re.findall('<a.*?href="((http|ftp)s?://.*?)".*?>(?uism)', seite)
link.replace('(', '').replace(')', '').replace(', http', '')
Gruß
Andyh
Ja ihr habe richtig gelesen ich will eine Suchmaschine Programmieren.
Ich habe mir auch schon 1 Terabyte Speicher gekauft.
Ich habe mit das so gedacht:
Ich setze einfach die Buchstaben vom Alphabet der Reihe nach zusammen und schauhe ob was vorhanden ist, wenn ja dann soll allen Links auf der Seite nachgeganen werden und deren Links usw.
[EDIT]
Nur wie bekomme ich die Keywörter aus den Seite heraus?
Text sieht ja so aus:
>Seite Kress wurde bearbeitet</
Nur wenn ich mit "re.findall('>.*</', keyhtml)" dann bekomme ich halt alles zurück was so "> </" geschrieben ist zurück.
[EDIT]:
Das ist gelöst:
Jetzt zum Problem ich bin soweit das ich die Links auf den Seiten finde.
Nur wie bekomme ich die links "sauber"
z.B:
<a href="ueber_die_hardware.htm">
<a href="topic-15572.html" class="topictitle">problems with cherrypy`s http auth using wsgiref</a>
<a target="_blank" href="http://www.flf-book.de/Benutzer/cnc4all.htm">
ich möchte nur den Link und nicht in welcher Frame der sich öffnen soll.
Mit "replace" kann man ja nach den Standart Framen Suchen aber nicht nach selbst gemachrn mit anderem Namen.
Wie macht man das am leichtesten. Ich habe was Versucht den link auzuspalten und in eine Liste zu Backen das ich besser suchen kann aber das hat nicht Funktioniert.
Lösung:
re.findall('<a.*?href="((http|ftp)s?://.*?)".*?>(?uism)', seite)
link.replace('(', '').replace(')', '').replace(', http', '')
Gruß
Andyh