re: Finde passende regular expression nicht

microkernel · Donnerstag 3. Mai 2012, 18:40

Hallo,

ich versuche im Moment den passenden Ausdruck für diesen Link zu finden:

link = '<a href="/politik/deutschland/0,1518,830942,00.html" title="Wahlen in Paris, Kiel und Athen: Für Merkel wird es ungemütlich">'

Mein Ansatz ist bis jetzt folgender:

Code: Alles auswählen

pattern = r'<a href="/[a-z]*/[a-z]*/(,{1}|[0-9])+.html'

Aber leider passt dieser jetzt schon nicht auf den link, was ich mir aber nicht erklären kann.

Kann mir da jemand einen Tipp geben, wie der passende Ausdruck lautet?

VG
microkernel

karolus · Donnerstag 3. Mai 2012, 18:50

Hallo
Heiteres Regex-raten:

Code: Alles auswählen

pattern = r'<a href="/[a-z]+/[a-z]+/[0-9,]+\.html"'

Karo

Hyperion · Donnerstag 3. Mai 2012, 19:35

Ohne den genauen Hintergrund zu kennen, würde ich das Filtern von Links und deren Inhalten trennen, indem man für ersteres auf einen HTML-Parser zurückgreift.

/me · Donnerstag 3. Mai 2012, 20:24

Hyperion hat geschrieben:Ohne den genauen Hintergrund zu kennen, würde ich das Filtern von Links und deren Inhalten trennen, indem man für ersteres auf einen HTML-Parser zurückgreift.

Das sieht nach Daten von spiegel.de aus. Ich habe die Seiten mit BeautifulSoup gut parsen können.

problembär · Donnerstag 3. Mai 2012, 23:24

Code: Alles auswählen

link = '<a href="/politik/deutschland/0,1518,830942,00.html" title="Wahlen in Paris, Kiel und Athen: Für Merkel wird es ungemütlich">'

Oh, ist das (jetzt) auch in HTML gültig? Ich kenn's nur als

Code: Alles auswählen

<a href="/politik/deutschland/0,1518,830942,00.html">Wahlen in Paris, Kiel und Athen: Für Merkel wird es ungemütlich</a>

http://de.selfhtml.org/html/verweise/definieren.htm

BlackJack · Donnerstag 3. Mai 2012, 23:37

@problembär: Schaust Du hier: http://de.selfhtml.org/html/referenz/at ... lattribute

In der Negativliste steht <a> nicht drin, also ist es dort erlaubt.

/me · Freitag 4. Mai 2012, 09:44

Ergänzend zur Antwort von BlackJack: Das sind zwei unterschiedliche Dinge. Das title-Attribut kann man fast überall dranheften.

Leonidas · Sonntag 6. Mai 2012, 04:22

Hyperion hat geschrieben:Ohne den genauen Hintergrund zu kennen, würde ich das Filtern von Links und deren Inhalten trennen, indem man für ersteres auf einen HTML-Parser zurückgreift.

Ich glaub das schreit entweder nach einem Foliensatz von mir oder einem Tutorial von dir. Parsen von HTML mit einem *gasp* Parser! "Was für ein Tier? Ein Pinsler?"

Hyperion · Sonntag 6. Mai 2012, 15:33

Leonidas hat geschrieben: Ich glaub das schreit entweder nach einem Foliensatz von mir oder einem Tutorial von dir. Parsen von HTML mit einem *gasp* Parser! "Was für ein Tier? Ein Pinsler?"

Ich denke da wäre sma der richtige Kandidat

Aber stimmt schon, solche Threads kommen schon häufig vor...