HTML-Block "bereinigen"

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Benutzeravatar
microkernel
User
Beiträge: 271
Registriert: Mittwoch 10. Juni 2009, 17:27
Wohnort: Frankfurt
Kontaktdaten:

Hallo,
ich wollte mal fragen, ob jemand von euch einen guten Weg kennt ein HTML-Code (wie folgt) von allen beinhaltenden Klassen zu "bereinigen", sodass nurnoch der "eigentliche" Text übrig bleibt.
Ich hatte es schon mit dem "re"-Module ausprobiert aber da kam ich trotz der Dokumentation nicht sehr weit (besser gesagt überhaupt nicht weit...:D)

Html-Code:

Code: Alles auswählen

<a href="http://www.taz.de/1/politik/amerika/artikel/1/regierung-befuerchtet-ueber-100000-opfer/">
<img align="left" src="http://www.taz.de/uploads/tx_hptazarticle/../hp_taz_img/rtea/Haiti.jpg" border="0" width="136" height="68" alt="" /></a>
Einen Tag nach dem Erdbeben in Haiti ist das Ausmaß der Katastrophe noch immer unklar. Die ersten Hilfsgüter treffen ein, aber die Versorgung
 der Menschen ist unzureichend. <a href="http://www.taz.de/1/politik/amerika/artikel/1/regierung-befuerchtet-ueber-100000-opfer/">mehr...</a>
	<p>Mehr zum Thema:
		  <div>
		<a href="http://www.taz.de/1/politik/amerika/artikel/1/es-gibt-kein-wasser-es-gibt-nichts/">
	      Katastrophen-Hilfe in Haiti: "Es gibt kein Wasser. Es gibt nichts"
		</a>
	  </div>
		  <div>
		<a href="http://www.taz.de/1/politik/amerika/artikel/1/ein-haufen-schutt/">
	      Erdbeben auf Haiti: Ein Haufen Schutt
		</a>
	  </div>
		  <div>
		<a href="http://www.taz.de/1/politik/amerika/artikel/1/das-katastrophenland/">
	      Länderkunde Haiti: Das Katastrophenland
		</a>
	  </div>
		  <div>
		<a href="http://www.taz.de/1/debatte/kommentar/artikel/1/neustart-fuer-ein-kaputtes-land/">
	      Kommentar Haiti: Neustart für ein kaputtes Land
		</a>
	  </div>
		</p>
LG
microkernel
Benutzeravatar
Defnull
User
Beiträge: 778
Registriert: Donnerstag 18. Juni 2009, 22:09
Wohnort: Göttingen
Kontaktdaten:

re.sub(r'<[^>]+?>','',html)
Bottle: Micro Web Framework + Development Blog
Benutzeravatar
Hyperion
Moderator
Beiträge: 7478
Registriert: Freitag 4. August 2006, 14:56
Wohnort: Hamburg
Kontaktdaten:

microkernel hat geschrieben:Hallo,
ich wollte mal fragen, ob jemand von euch einen guten Weg kennt ein HTML-Code (wie folgt) von allen beinhaltenden Klassen zu "bereinigen", sodass nurnoch der "eigentliche" Text übrig bleibt.
Was meinst Du denn mit "Klassen"? Ich sehe da keine einzige als Attribut, also musst Du wohl etwas anderes meinen...
Ich hatte es schon mit dem "re"-Module ausprobiert aber da kam ich trotz der Dokumentation nicht sehr weit (besser gesagt überhaupt nicht weit...:D)
reguläre Ausdrücke sind bei rekursiven Strukturen eher ungeeignet. Wenn bei Deinem Problem die Verschachtelung keine Rolle spielen sollte, ginge es damit natürlich auch. Ansonsten würde ich einen HTML-Parser vorziehen.
Benutzeravatar
gerold
Python-Forum Veteran
Beiträge: 5555
Registriert: Samstag 28. Februar 2004, 22:04
Wohnort: Oberhofen im Inntal (Tirol)
Kontaktdaten:

Hallo microkernel!

Code: Alles auswählen

sudo aptitude install html2text
man html2text
mfg
Gerold
:-)
http://halvar.at | Kleiner Bascom AVR Kurs
Wissen hat eine wunderbare Eigenschaft: Es verdoppelt sich, wenn man es teilt.
Benutzeravatar
microkernel
User
Beiträge: 271
Registriert: Mittwoch 10. Juni 2009, 17:27
Wohnort: Frankfurt
Kontaktdaten:

vielen dank!
"html2text" hats jetzt gebracht!
Antworten