reguläre ausdrücke url problem
Verfasst: Sonntag 31. August 2008, 22:19
---------------------
Seit 2002 Diskussionen rund um die Programmiersprache Python
https://www.python-forum.de/
Da ist wohl ``\w{2,4}`` gemeint, was aber an .museum oder .travel scheitert. Es würde wohl auch an den etwas populäreren .co.uk oder .ac.at scheitern. Letztendlich ist es eine schlechte Idee URLs mit Regulären Ausdrücken matchen zu wollen, dafür sind sie einfach zu komplex.BlackJack hat geschrieben:PS: Im Ausdruck selbst kommt mir 'w{2,4}' ein wenig eigenartig vor: 2 bis 4 'w's nacheinander sollen da gematcht werden!?
Wenn du später sowieso nur match() verwenden willst, brauchst du kein '^', da der Text bei match() immer von Anfang an passen muss.^(http://)
Du hast 'https://' vergessen (Falls es dir nur um Hypertext-Links geht, ansonsten noch ftp, usw.).(http://)
'www' ist nur eine Subdomain und Subdomains können auch komplett anders heißen (stores.ebay.de z.B.).(www.)?
es gibt auch Domains mit zwei Buchstaben: http://www.ge.com/. Außerdem darf eine Domain nicht mit Bindestrich anfangen oder aufhören. An IDNA-Domains ("Umlautdomains") hast du vermutlich auch nicht gedacht([a-z0-9-]{3,})
Der Punkt wird hier nicht als Punkt ausgewertet, sondern als "jedes beliebige Zeichen, außer new line" - Du müsstest also '\.' schreiben, damit es nur auf einen Punkt passt..w{2,4}
hören bei dir alle URLs nach der tld bzw. tld + Slash auf? Ich dachte, da kann noch ein Pfad, Parameter, usw. kommen(/)?