re: Finde passende regular expression nicht

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Benutzeravatar
microkernel
User
Beiträge: 271
Registriert: Mittwoch 10. Juni 2009, 17:27
Wohnort: Frankfurt
Kontaktdaten:

Hallo,

ich versuche im Moment den passenden Ausdruck für diesen Link zu finden:

Code: Alles auswählen

link = '<a href="/politik/deutschland/0,1518,830942,00.html" title="Wahlen in Paris, Kiel und Athen: Für Merkel wird es ungemütlich">'
Mein Ansatz ist bis jetzt folgender:

Code: Alles auswählen

pattern = r'<a href="/[a-z]*/[a-z]*/(,{1}|[0-9])+.html'
Aber leider passt dieser jetzt schon nicht auf den link, was ich mir aber nicht erklären kann.

Kann mir da jemand einen Tipp geben, wie der passende Ausdruck lautet?


VG
microkernel
karolus
User
Beiträge: 140
Registriert: Samstag 22. August 2009, 22:34

Hallo
Heiteres Regex-raten:

Code: Alles auswählen

pattern = r'<a href="/[a-z]+/[a-z]+/[0-9,]+\.html"'
Karo
Benutzeravatar
Hyperion
Moderator
Beiträge: 7478
Registriert: Freitag 4. August 2006, 14:56
Wohnort: Hamburg
Kontaktdaten:

Ohne den genauen Hintergrund zu kennen, würde ich das Filtern von Links und deren Inhalten trennen, indem man für ersteres auf einen HTML-Parser zurückgreift.
encoding_kapiert = all(verstehen(lesen(info)) for info in (Leonidas Folien, Blog, Folien & Text inkl. Python3, utf-8 everywhere))
assert encoding_kapiert
Benutzeravatar
/me
User
Beiträge: 3554
Registriert: Donnerstag 25. Juni 2009, 14:40
Wohnort: Bonn

Hyperion hat geschrieben:Ohne den genauen Hintergrund zu kennen, würde ich das Filtern von Links und deren Inhalten trennen, indem man für ersteres auf einen HTML-Parser zurückgreift.
Das sieht nach Daten von spiegel.de aus. Ich habe die Seiten mit BeautifulSoup gut parsen können.
problembär

Code: Alles auswählen

link = '<a href="/politik/deutschland/0,1518,830942,00.html" title="Wahlen in Paris, Kiel und Athen: Für Merkel wird es ungemütlich">'
Oh, ist das (jetzt) auch in HTML gültig? Ich kenn's nur als

Code: Alles auswählen

<a href="/politik/deutschland/0,1518,830942,00.html">Wahlen in Paris, Kiel und Athen: Für Merkel wird es ungemütlich</a>
http://de.selfhtml.org/html/verweise/definieren.htm
BlackJack

@problembär: Schaust Du hier: http://de.selfhtml.org/html/referenz/at ... lattribute

In der Negativliste steht <a> nicht drin, also ist es dort erlaubt.
Benutzeravatar
/me
User
Beiträge: 3554
Registriert: Donnerstag 25. Juni 2009, 14:40
Wohnort: Bonn

Ergänzend zur Antwort von BlackJack: Das sind zwei unterschiedliche Dinge. Das title-Attribut kann man fast überall dranheften.
Leonidas
Python-Forum Veteran
Beiträge: 16025
Registriert: Freitag 20. Juni 2003, 16:30
Kontaktdaten:

Hyperion hat geschrieben:Ohne den genauen Hintergrund zu kennen, würde ich das Filtern von Links und deren Inhalten trennen, indem man für ersteres auf einen HTML-Parser zurückgreift.
Ich glaub das schreit entweder nach einem Foliensatz von mir oder einem Tutorial von dir. Parsen von HTML mit einem *gasp* Parser! "Was für ein Tier? Ein Pinsler?"
My god, it's full of CARs! | Leonidasvoice vs (former) Modvoice
Benutzeravatar
Hyperion
Moderator
Beiträge: 7478
Registriert: Freitag 4. August 2006, 14:56
Wohnort: Hamburg
Kontaktdaten:

Leonidas hat geschrieben: Ich glaub das schreit entweder nach einem Foliensatz von mir oder einem Tutorial von dir. Parsen von HTML mit einem *gasp* Parser! "Was für ein Tier? Ein Pinsler?"
Ich denke da wäre sma der richtige Kandidat ;-) Aber stimmt schon, solche Threads kommen schon häufig vor... :mrgreen:
encoding_kapiert = all(verstehen(lesen(info)) for info in (Leonidas Folien, Blog, Folien & Text inkl. Python3, utf-8 everywhere))
assert encoding_kapiert
Antworten