re.findall syntax bei Benutzereingabe

m.g.o.d · Samstag 4. April 2020, 15:24

Hi Zusammen,

mein allererster Post hier

Ich habe eine kurze Frage wo ich nicht weiter komme:

Wie ist es zu bewerkstelligen, folgenden Ausdruck:

query=re.findall("href=\"https://kenfm.de/*[^\"]+", alles)

So zu modifizieren, das anstelle des Links "https://kenfm.de/" eine Benutzereingabe eingelesen wird?

Also Sinngemäß

Code: Alles auswählen

eingabe_url = input("Bitte gewünschte Webseite eingeben:")

def get_html(li):
	alles = li #li enthält den gesamten HTML Code einer eingegebenen Hauptseite, z.B. www.google.de
	query=re.findall("href=\eingabe_url*[^\"]+", alles)(

Würde mich über jeden Tip sehr freuen.

Besten Gruß,
Marc

snafu · Samstag 4. April 2020, 16:41

Man muss den Query mit der Aluhut API wrappen, soweit ich weiß...

__blackjack__ · Samstag 4. April 2020, 17:35

@snafu:

@m.g.o.d: Man parst HTML nicht mit regulären Ausdrücken. Um da mal den Klassiker zu verlinken: https://stackoverflow.com/questions/173 ... 54#1732454

Man nimmt einen HTML-Parser. BeautifulSoup4 ist da recht beliebt.

In Deinem Original solltest Du auch noch mal über den "*" nachdenken, ob der da wirklich so gewollt ist. Und der Name `li` für ein Argument das den gesamten HTML-Quelltext einer Seite enthält ist nicht ernst gemeint hoffe ich…

m.g.o.d · Samstag 4. April 2020, 18:41

Hi,

danke für eure Nachrichten. Also das mit dem beautiful soup hilft mir schon einmal weiter. Vielen Dank dafür!

Viele Grüße,
Marc