Das deutsche Python-Forum

Hallo, hab zwar schon alte Beiträge durchstöbert aber noch keine passende Lösung für mein (ja es ist warscheinlich sehr banal) gefunden habe.

hab diesen string hier und will daraus:

<img src="/icons/text.gif" alt="[TXT]"> <a href="test.txt">test.5..></a> 14-Feb-2008 12:58 2.1K

zum Beispiel dass Datum oder die Uhrzeit rausschneiden.

die Funktion

re.sub auf den oberen string schneidet mir zwar dass richtige raus, aber dass ist ja nicht sinn und zweck..... also ich will quasi alles raushauen ohne das Datum/Uhrzeit/regex...gibts da ne passende methode, steh irgendwieviel voll aufm schlauch,

Danke schonmal, Gruß

Also HTML so zu parsen kannst du ziemlich vergessen. Nimm lieber BeautifulSoup oder html5lib.

ja ich weiß dass das nicht unbedingt das schönste ist, aber wie gesagt brauch nur das Datum/Uhrzeit aus diesem einen string.

gibts da keine "einfache" möglichkeit?

Naja, eben einfach einen regulären Ausdruck dafür schreiben und dann `re.search()` damit verwenden.

ah fein, danke!.... steh wirklich aufn schlauch heut...

Mein Vorschlag:

Code: Alles auswählen

re.findall(r'(\d\d-\w\w\w-\d\d\d\d \d\d:\d\d) \d+(?:.\d+)?K', text)

Wenn's genauer treffen soll, nimm eine Liste aller Monatsnamen `(?:Jan|Feb|...)` statt `\w\w\w`.

Stefan

Hi,
wenn die Struktur immer gleich ist und ich da nichts falsch verstanden habe,
dann müßte das doch auch (ohne re) so gehen:

Code: Alles auswählen

a = '<img src="/icons/text.gif" alt="[TXT]"> <a href="test.txt">test.5..></a> 14-Feb-2008 12:58 2.1K'
>>> b = len(a) -10
>>> c = a[b:b+5]
>>> c
'12:58'

was in diesem Fall die Uhrzeit rausschneidet.
Gruß Oscar

Nur mal so geraten ist das '2.1 K' am Ende eine Grössenangabe einer Datei und damit wahrscheinlich in der Länge nicht fest.

Oscar hat geschrieben:Hi,
wenn die Struktur immer gleich ist und ich da nichts falsch verstanden habe,
dann müßte das doch auch (ohne re) so gehen:
Code: Alles auswählen
a = '<img src="/icons/text.gif" alt="[TXT]"> <a href="test.txt">test.5..></a> 14-Feb-2008 12:58 2.1K'
>>> b = len(a) -10
>>> c = a[b:b+5]
>>> c
'12:58' 
was in diesem Fall die Uhrzeit rausschneidet.
Gruß Oscar

Und wenn Die Dateigröße mehr als 4 Zeichen einnimmt?

Hier lässt sich aber auch gut mit einfachen splits arbeiten, wenn die Struktur wirklich immer gleich bleibt.

Code: Alles auswählen

s = '<img src="/icons/text.gif" alt="[TXT]"> <a href="test.txt">test.5..></a> 14-Feb-2008 12:58 2.1K'

s = s.split("</a>")[1]
s = s.strip()

# s ist jetzt '14-Feb-2008 12:58 2.1K'.

datum, uhrzeit, rest = s.split(" ",3)

Oder, ums kurz zu machen

Code: Alles auswählen

datum, uhrzeit, rest = s.split("</a>")[1].strip().split(" ",3)

Das deutsche Python-Forum

Regular Expression

Regular Expression