ich habe eine Frage zu folgender Code-Zeile, die ich hier gefunden habe:
Code: Alles auswählen
links = re.findall('<a.*?href="((http|ftp)s?://.*?)".*?>(?uism)', html)
Danke.
Code: Alles auswählen
links = re.findall('<a.*?href="((http|ftp)s?://.*?)".*?>(?uism)', html)
Ok,BlackJack hat geschrieben:Das steht für Flags. Und an der falschen Stelle, es sollte vorne stehen.
http://docs.python.org/lib/re-syntax.html
Es steht für Unicode.Duff hat geschrieben:Danke.
Fehlt nur noch eine Erklärung für das u in (?uism).
Wenn ich das ganze richtig verstehe, unterscheiden sich die regulären Ausdrücke von python ein wenig zu den "allgemeinen", wie in perl z.B.
Da könnte man genausogut sagen die regulären Ausdrücke von Perl unterscheiden sich von den "allgemeinen" wie in Python zum Beispiel. Oder in sed, oder awk, oder Java, oder… Ausser in den wirklich grundlegenden Sachen unterscheiden die sich alle ein kleines bisschen.Duff hat geschrieben:Wenn ich das ganze richtig verstehe, unterscheiden sich die regulären Ausdrücke von python ein wenig zu den "allgemeinen", wie in perl z.B.
Ok, ich kenne eigentlich eher die von sed, awk, perl. In Java gibt es ja noch erweiterungen, wie es sie vielleicht auch in python gibt.BlackJack hat geschrieben:Da könnte man genausogut sagen die regulären Ausdrücke von Perl unterscheiden sich von den "allgemeinen" wie in Python zum Beispiel. Oder in sed, oder awk, oder Java, oder… Ausser in den wirklich grundlegenden Sachen unterscheiden die sich alle ein kleines bisschen.Duff hat geschrieben:Wenn ich das ganze richtig verstehe, unterscheiden sich die regulären Ausdrücke von python ein wenig zu den "allgemeinen", wie in perl z.B.