Regular Expression zum entfernen einfacher HTML Tags...

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Benutzeravatar
BlackVivi
User
Beiträge: 762
Registriert: Samstag 9. Dezember 2006, 14:29
Kontaktdaten:

Ich hab noch so meine kleinen Probleme mit REs, irgendwie bin ich reichlich umbegabt dadrin. Ich hab'ne kurze Zeile mit wenig Inhalt, aber jeder Inhalt zwischen den <> soll entfernt werden. Ich denke sowas geht mit Regulären Ausdrücken am einfachtsten. Ich dachte mir das so:

Code: Alles auswählen

import re
remHTML = re.compile("[<].*[>]")
remHTML.sub("", "<p>Viel Text und <b>bla</b></p>")
(Hoffentlich werd ich wegen meiner Dummheit nicht in der Luft zerrissen oO)

Auf jedenfall klappt das nicht. Ich hab auch keine Ahnung wie. Hab mir was darüber durchgelesen, aber is'n Buch mit sieben Siegeln. Vielleicht kann mir jemand einen kleinen Hinweis geben...
Benutzeravatar
birkenfeld
Python-Forum Veteran
Beiträge: 1603
Registriert: Montag 20. März 2006, 15:29
Wohnort: Die aufstrebende Universitätsstadt bei München

"<.*?>" ist die kurze Antwort.

Allerdings können auch Attributwerte in Anführungszeichen ">" enthalten (ob das gemäß Spec ist, weiß ich nicht, aber es kommt vor, und da wird es schon wieder schwierig mit REs.
Dann lieber noch Vim 7 als Windows 7.

http://pythonic.pocoo.org/
Benutzeravatar
BlackVivi
User
Beiträge: 762
Registriert: Samstag 9. Dezember 2006, 14:29
Kontaktdaten:

Vielen dank. Für das, was ich machen möchte, reicht es vollkommen.
Antworten