Seite 1 von 1
re: Finde passende regular expression nicht
Verfasst: Donnerstag 3. Mai 2012, 18:40
von microkernel
Hallo,
ich versuche im Moment den passenden Ausdruck für diesen Link zu finden:
Code: Alles auswählen
link = '<a href="/politik/deutschland/0,1518,830942,00.html" title="Wahlen in Paris, Kiel und Athen: Für Merkel wird es ungemütlich">'
Mein Ansatz ist bis jetzt folgender:
Code: Alles auswählen
pattern = r'<a href="/[a-z]*/[a-z]*/(,{1}|[0-9])+.html'
Aber leider passt dieser jetzt schon nicht auf den link, was ich mir aber nicht erklären kann.
Kann mir da jemand einen Tipp geben, wie der passende Ausdruck lautet?
VG
microkernel
Re: re: Finde passende regular expression nicht
Verfasst: Donnerstag 3. Mai 2012, 18:50
von karolus
Hallo
Heiteres Regex-raten:
Karo
Re: re: Finde passende regular expression nicht
Verfasst: Donnerstag 3. Mai 2012, 19:35
von Hyperion
Ohne den genauen Hintergrund zu kennen, würde ich das Filtern von Links und deren Inhalten trennen, indem man für ersteres auf einen HTML-Parser zurückgreift.
Re: re: Finde passende regular expression nicht
Verfasst: Donnerstag 3. Mai 2012, 20:24
von /me
Hyperion hat geschrieben:Ohne den genauen Hintergrund zu kennen, würde ich das Filtern von Links und deren Inhalten trennen, indem man für ersteres auf einen HTML-Parser zurückgreift.
Das sieht nach Daten von spiegel.de aus. Ich habe die Seiten mit BeautifulSoup gut parsen können.
Re: re: Finde passende regular expression nicht
Verfasst: Donnerstag 3. Mai 2012, 23:24
von problembär
Code: Alles auswählen
link = '<a href="/politik/deutschland/0,1518,830942,00.html" title="Wahlen in Paris, Kiel und Athen: Für Merkel wird es ungemütlich">'
Oh, ist das (jetzt) auch in HTML gültig? Ich kenn's nur als
Code: Alles auswählen
<a href="/politik/deutschland/0,1518,830942,00.html">Wahlen in Paris, Kiel und Athen: Für Merkel wird es ungemütlich</a>
http://de.selfhtml.org/html/verweise/definieren.htm
Re: re: Finde passende regular expression nicht
Verfasst: Donnerstag 3. Mai 2012, 23:37
von BlackJack
@problembär: Schaust Du hier:
http://de.selfhtml.org/html/referenz/at ... lattribute
In der Negativliste steht <a> nicht drin, also ist es dort erlaubt.
Re: re: Finde passende regular expression nicht
Verfasst: Freitag 4. Mai 2012, 09:44
von /me
Ergänzend zur Antwort von BlackJack: Das sind zwei unterschiedliche Dinge. Das title-Attribut kann man fast überall dranheften.
Re: re: Finde passende regular expression nicht
Verfasst: Sonntag 6. Mai 2012, 04:22
von Leonidas
Hyperion hat geschrieben:Ohne den genauen Hintergrund zu kennen, würde ich das Filtern von Links und deren Inhalten trennen, indem man für ersteres auf einen HTML-Parser zurückgreift.
Ich glaub das schreit entweder nach einem Foliensatz von mir oder einem Tutorial von dir. Parsen von HTML mit einem *gasp* Parser! "Was für ein Tier? Ein Pinsler?"
Re: re: Finde passende regular expression nicht
Verfasst: Sonntag 6. Mai 2012, 15:33
von Hyperion
Leonidas hat geschrieben:
Ich glaub das schreit entweder nach einem Foliensatz von mir oder einem Tutorial von dir. Parsen von HTML mit einem *gasp* Parser! "Was für ein Tier? Ein Pinsler?"
Ich denke da wäre sma der richtige Kandidat

Aber stimmt schon, solche Threads kommen schon häufig vor...
