Die Suche ergab 8 Treffer

von alexander
Montag 29. September 2008, 16:26
Forum: Allgemeine Fragen
Thema: Tabelle aus HTML mit lxml.html und regex einlesen
Antworten: 11
Zugriffe: 2005

@lunar: Das war der Ausdruck, den ich gesucht habe, vielen Dank. :)
von alexander
Montag 29. September 2008, 15:01
Forum: Allgemeine Fragen
Thema: Tabelle aus HTML mit lxml.html und regex einlesen
Antworten: 11
Zugriffe: 2005

@snafu: Das hatte ich als erstes probiert, das Problem ist allerdings, dass der Klassenname nicht immer "timeDetail borderTopodd" lautet, sondern auch mal nur "timeDetail" oder "timeDetail borderToppeven" usw.
Deswegen suche ich einen xpath()-Ausdruck, der mir alle entsprechenden Texte der Zellen ...
von alexander
Montag 29. September 2008, 13:09
Forum: Allgemeine Fragen
Thema: Tabelle aus HTML mit lxml.html und regex einlesen
Antworten: 11
Zugriffe: 2005

Danke für den Wink mit dem Zaunpfahl :wink:

jetzt nutze ich xpath() bekomme aber nicht ganz das Ergebnis, das ich erwartet habe:
is_time = re.compile("(\d\d:\d\d)")
for table in doctree.find_class('detailTable'):
print '-'*60
for item in table.xpath('.//td[contains(name(), timeDetail)]'):
try ...
von alexander
Sonntag 28. September 2008, 21:41
Forum: Allgemeine Fragen
Thema: Tabelle aus HTML mit lxml.html und regex einlesen
Antworten: 11
Zugriffe: 2005

Ich hatte mir die Doku zu lxml durchgelesen, Reguläre Ausdrücke bzw. deren Nichtanwendbarkeit wurden leider nicht namentlich erwähnt. :(

Gibt es denn Alternativen zu lxml.html, die mit regulären Ausdrücken bei der Suche im Etree umgehen können?
von alexander
Sonntag 28. September 2008, 19:29
Forum: Allgemeine Fragen
Thema: """Lange Zeichenketten zerstören die Einrücku
Antworten: 8
Zugriffe: 1441

Vielleicht hilft dir dieser Link mit einem Workaround mittels textwrap:
[wiki]Multiline-Strings[/wiki]
von alexander
Sonntag 28. September 2008, 19:21
Forum: Allgemeine Fragen
Thema: Tabelle aus HTML mit lxml.html und regex einlesen
Antworten: 11
Zugriffe: 2005

Tabelle aus HTML mit lxml.html und regex einlesen

Hallo,
ich versuche gerade mit lxml.html Tabellenzellen einer HTML-Seite auszulesen.
Den Element Tree hole ich mit:
import urllib
from lxml.html import fromstring

def get_site(url):
content = urllib.urlopen(url).read()
doctree = lxml.html.fromstring(content)
doctree.make_links_absolute(url ...
von alexander
Donnerstag 21. August 2008, 21:25
Forum: Allgemeine Fragen
Thema: Suche elegante Lösung um HTML-Tabelle auszulesen
Antworten: 4
Zugriffe: 1514

Vielen Dank für den freundlichen Empfang im Forum und die Anregungen, ich werde die verschiedenen Möglichkeiten in den nächsten Tagen mal ausprobieren.

@audax: Wenn man weiß, wonach man suchen muss ist es ja auch einfach, danke für den Hinweis :)

@Leonidas: Danke für den Tipp mit dem Usertreffen ...
von alexander
Donnerstag 21. August 2008, 08:53
Forum: Allgemeine Fragen
Thema: Suche elegante Lösung um HTML-Tabelle auszulesen
Antworten: 4
Zugriffe: 1514

Suche elegante Lösung um HTML-Tabelle auszulesen

Hallo,
seit 2 Monaten programmiere ich in Python und habe mir ein kleines Programm geschrieben, das von einer Seite der Uni den Stundenplan als html-Seite mit mechanize herunterlädt und dann in eine iCalendar-Datei schreibt.
Ein Beispiel für eine HTML-Datei sieht so aus: http://paste.pocoo.org/show ...