Mein Programm Googlen lassen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Captain Normalo
User
Beiträge: 2
Registriert: Montag 28. Februar 2011, 19:59

Hallo erstmal!

Mein Problem ist folgendes: Ich hatte die Idee ein Programm zu schreiben, welches einen einzugebenden Begriff "googelt", und Begriffe findet die in den gefundenen urls häufig vorkommen, und diese erneut sucht, usw. Das Programm, hätte also den Zweck einen "Wörterbaum" zu erstellen, den man dann für z.B. eine Mindmap verwenden kann.

Gescheitert bin ich dann beim suchen mit Google, denn im mit urllib herunterladbaren Seitenquelltext sind die Ergebnisse nicht zu finden. Es scheint so, als würden diese mit AJAX übertragen werden. Die Preisfrage ist jetzt: Wie komme ich daran? Habe ich überhaupt eine Chance daran zu kommen oder kann ich das vergessen? Und ist das überhaupt Legal Google mit einem Programm zu nutzen?

Achso, um das vorwegzunehmen: Google hat mir auch nicht geholfen. Es gab mal was von Google, das gibt's nicht mehr.

Vielen Dank im Voraus
Captain Normalo

off topic: Juhu, mein erster Post *freu*
Benutzeravatar
cofi
Python-Forum Veteran
Beiträge: 4432
Registriert: Sonntag 30. März 2008, 04:16
Wohnort: RGFybXN0YWR0

Captain Normalo hat geschrieben:Und ist das überhaupt Legal Google mit einem Programm zu nutzen?
Nein, siehe Punkt 4 der Terms of Service: http://www.google.com/accounts/TOS?hl=de&loc=DE

Aber zu deiner Frage: Die Infos sind im Code der Seite.
Captain Normalo
User
Beiträge: 2
Registriert: Montag 28. Februar 2011, 19:59

cofi hat geschrieben:Aber zu deiner Frage: Die Infos sind im Code der Seite.
Wie kann das angehen? Wenn ich in der Python-Kommandozeile(?) tippe:

Code: Alles auswählen

f = urllib.urlopen("http://www.google.de/#hl=de&q=narbacular&aq=f&aqi=g2&aql=&oq=&fp=aca1093092ccd403")
f.readlines()
und dann ganz unprofessionell die Ausgabe in mein Texteditor kopiere und nach einem beliebigen Begriff suche, der in einer URL der gefundenen Seiten vorkommt, kann der den Begriff nicht finden. Wenn ich mir den Quellcode mit Firefox herunterlade (was in diesem Falle komfortabler war, da Python mir eine Liste gibt deren Einträge nunmal in eckigen Klammern stehen) eine HTML-Datei kopiere und die öffne, sehe ich in Firefox nur die gewöhnliche Google-Haupseite - nur ohne Bild.

Aber eigentlich ist das ja eh egal, denn wenn mein Skript unheimlich schnell "googeln" würde, würde ja meine IP geblockt werden, sofern ich das richtig verstanden habe.

Trotzdem: Danke
Benutzeravatar
cofi
Python-Forum Veteran
Beiträge: 4432
Registriert: Sonntag 30. März 2008, 04:16
Wohnort: RGFybXN0YWR0

Captain Normalo hat geschrieben:Aber eigentlich ist das ja eh egal, denn wenn mein Skript unheimlich schnell "googeln" würde, würde ja meine IP geblockt werden, sofern ich das richtig verstanden habe.
Nein, ein einziges Mal fällt auch unter
Googles TOS hat geschrieben:Es ist Ihnen untersagt, auf die Dienste in automatisierter Weise zuzugreifen, beispielsweise mit Robots oder Skripts.
Hmm ok ich hatte mir die Seite im Firefox angeschaut, scheinbar wurde das Javascript dort auch ausgewertet auch wenn es eigentlich aus war :(
Lasse
User
Beiträge: 112
Registriert: Donnerstag 3. Februar 2011, 18:25

Aber Meta-Suchmaschinen wie zum Beispiel Meta-ger, machen doch das selbe wenn sie den Begriff des Nutzers in andere Suchmaschinen automatisch eintragen und die Ergebnisse verschiedener Seiten auswerten.
BlackJack

@Lasse: Die werden vorher die Erlaubnis von Google eingeholt haben. Und wahrscheinlich werden die auch eine API benutzen und nicht den HTML-Quelltext vom Suchergebnis parsen.
CoffeeReptile
User
Beiträge: 1
Registriert: Montag 15. November 2010, 13:44

Bei einigen user_agent's gibt google eine Fehlermeldung zurück. Der Standart Agent von Python gehört dazu. Wenn du also z.B. einfach den UserAgent
'Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.7) Gecko/2009021910 Firefox/3.0.7'
zum Request hinzufügst, bekommste du auch die richtige Antwort.
Leonidas
Python-Forum Veteran
Beiträge: 16025
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Verstößt aber immer noch gegen die Google-Richtlinien…
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
Py-Prog
User
Beiträge: 673
Registriert: Dienstag 16. Februar 2010, 17:52
Wohnort: G:\ermany

Leonidas hat geschrieben:Verstößt aber immer noch gegen die Google-Richtlinien…
Ich will nicht wissen gegen wie viele "Richtlinien" Google verstößt, außerdem, wieso sollte Google jemanden wegen sowas verklagen? Die Merken doch nicht mal ob da ein Browser oder ein anderes Programm darauf zugreift.
Technik ist: wenn alles funktioniert und keiner weiß warum.
Wer Rechtschreibfehler findet darf sie behalten.
BlackJack

@Py-Prog: Nur weil jemand anderes sich gegen die Wünsche von anderen hinweg setzt, ist es nicht okay das auch zu tun.

Google verklagt da niemanden sondern sperrt einfach IPs wenn's zu bunt wird. Da sehr viele Leute mit dynamisch zugewiesenen IPs im Netz unterwegs sind, kann so eine IP-Sperre auch andere treffen als den, der sie sich "verdient" hat.
Py-Prog
User
Beiträge: 673
Registriert: Dienstag 16. Februar 2010, 17:52
Wohnort: G:\ermany

BlackJack hat geschrieben:@Py-Prog: Nur weil jemand anderes sich gegen die Wünsche von anderen hinweg setzt, ist es nicht okay das auch zu tun.
Ich muss dir zustimmen dass so ein Verhalten Kindisch ist aber ...
Technik ist: wenn alles funktioniert und keiner weiß warum.
Wer Rechtschreibfehler findet darf sie behalten.
Antworten