Regular Expression zum entfernen einfacher HTML Tags...

BlackVivi · Freitag 7. September 2007, 21:25

Ich hab noch so meine kleinen Probleme mit REs, irgendwie bin ich reichlich umbegabt dadrin. Ich hab'ne kurze Zeile mit wenig Inhalt, aber jeder Inhalt zwischen den <> soll entfernt werden. Ich denke sowas geht mit Regulären Ausdrücken am einfachtsten. Ich dachte mir das so:

Code: Alles auswählen

import re
remHTML = re.compile("[<].*[>]")
remHTML.sub("", "<p>Viel Text und <b>bla</b></p>")

(Hoffentlich werd ich wegen meiner Dummheit nicht in der Luft zerrissen oO)

Auf jedenfall klappt das nicht. Ich hab auch keine Ahnung wie. Hab mir was darüber durchgelesen, aber is'n Buch mit sieben Siegeln. Vielleicht kann mir jemand einen kleinen Hinweis geben...

birkenfeld · Freitag 7. September 2007, 22:30

"<.*?>" ist die kurze Antwort.

Allerdings können auch Attributwerte in Anführungszeichen ">" enthalten (ob das gemäß Spec ist, weiß ich nicht, aber es kommt vor, und da wird es schon wieder schwierig mit REs.

BlackVivi · Freitag 7. September 2007, 23:04

Vielen dank. Für das, was ich machen möchte, reicht es vollkommen.