habe heute mit Python "in der Praxis" angefangen und ne Frage zu den REs.
Ich will aus ner HTML-Datei alle Links extrahieren. Theoretisch ganz einfach, da ich das selbe Beispiel auch in nem Buch gefunden habe, aber im Buch wird davon ausgegangen, dass die Links das Format href="..." haben. Links könnten aber auch das Format href = ... haben (also mit leerzeichen, etc.
Ich bin inzwischen soweit:
Code: Alles auswählen
regex = re.compile(r"<a.*?href\s*=\s*[\"|']?.*?[\"|']?.*?>")
result = regex.findall(code)
Aber ich brauche ja nur den HREF-Inhalt. Im Buch wurde das mit runden Klammer gelöst (*.?) - in meinem Beispiel würde das so aussehen:
Code: Alles auswählen
regex = re.compile(r"<a.*?href\s*=\s*[\"|']?(.*?)[\"|']?.*?>")
# ^^^^^
result = regex.findall(code)
also nicht den gewünschten HREF-Inhalt
Habt ihr ne Idee wie es ausbessern kann?
mfg to.ni