ich wuerde gerne bei folgendem html text die anchor tags wegmachen mittels einer regular expression. Der unten gegebene string ist ein beispiel string, der sich meist in den Zahlen variiert.
Ich habe auch mal meinen Versuch einer regular expression gegeben, damit ihr sehen koennt, was ich denn bisher gemacht habe. Ein Tipp wie man das macht waere nett. Ich steh gerade seit unglaublichen 2 stunden auf dem Schlauch der Schlaeuche
Danke schonmal
Code: Alles auswählen
import re
# Beispiel String
line = '''<a href="/doi/abs/10.1021/ja2026882">Total Synthesis of (±)-Cycloclavine and (±)-5-<i>epi</i>-Cycloclavine</a>'''
regex = re.compile(r"""
</? # Optional; Needed for </a>
a
(\W|\S)+? # Optionally checks for any alphanumerical character or whitespace or none
# Mistake most likely in this line...
> # end delimiter
""", re.VERBOSE)
t = re.sub(regex, "", line)
print line # vorher
print t # nachher