Das deutsche Python-Forum

Hallo zusammen, bin neu in diesem Forum und möchte kurz erklären was mein Ziel ist. Ich würde gerne via Urllib.open(url etc.) den Content der URL auslesen und bestimmte Link's in ein Textfile schreiben. Sollte villeicht noch sagen das ich im Bereich Programmieren mit Python meine ersten Schritte mache.

Code: Alles auswählen

import urllib, os
d = open("textfile.txt","w");
x = os.path.getsize("textfile.txt");
while (x <= "10000L"):
	f = urllib.urlopen("URL");
	for content in f:
		if content == "Contentinhalt":
			d.write(content + "\n")
	f.close();

würde mich über eine baldige Antwort freuen. Danke euer Subsystem

Generell waere es gut, wenn du sagst, was dein Problem ist.

Diese while-Schleife ist Murks. Erstmal aenderst du x in der Schleife gar nicht mehr. Zweitens gibt getsize eine Zahl, du vergleichst aber mit einem String. Generell ist das Ueberpruefen der Dateigroesse waehrend du noch reinschreibst ungenau, da nicht alles sofort auf Platte geschrieben wird, sondern gepuffert wird. Brauchst du sowas wirklich?

Was ist denn dein Problem? Willst du Links mit einem bestimmten Pattern sammeln? Dann schau dir mal Regular Expressions und [mod]re[/mod] an.

@ Cofi dankeschön dies ware genau was ich gesucht habe.

Wobei man zum finden der Links auf einen echten HTML-Parser setzen sollte, such mal nach BeautifulSoup.

Der Algorithmus mal korrekt:

Code: Alles auswählen

with open("links.txt", "w") as linkfile:
    while True:
        links = gather_links(url)
        linkfile.writelines(links)
        if os.path.getsize >= MAX_SIZE:
            break

Das deutsche Python-Forum

urllib und co

urllib und co

Murks ^^