@Sirius3
Das gibts doch nicht! Vielen Dank!
Ich hatte es verdammt noch einmal damit versucht, allerdings hatte ich nicht noch die eine "extra" Klammer drum rum! Ich hatte nur "neue_liste.append(m.start(), m.end(), m.group(1))" und da habe ich natürlich eine Fehlermeldung bekommen. Meine Güte!
/Edit
Es hat mich wieder ein paar Minuten gekostet, aber jetzt habe ich sogar verstanden, warum da noch einmal eine Klammer rum musste.
Namen aus einem Text extrahieren o. Named Entity Recogntion
Hallo Kollegen!
ich habe ein ähnliches Problem.
Ich bin zwar mit den Python-HOWTOs und den Beiträgen dieses Forums schon in die Nähe der Lösung gekommen, aber eben nicht ganz.
Hintergrund:
Ich möchte von einer Webseite einen Wert auslesen. (Soweit - sogut)
Dazu habe ich mit BeautifulSoup und RE den Inhalt eingelesen und als Str-Text in eine Variable gespeichert. Das klappt sogar.
Nun interessiert mich aber nicht der ganze Text, sondern nur eine Zeile. Die Zeile hat sogar einen Wert, mit der man sie identifizieren kann.
Der Text sieht prinzipiell wie folgt aus:
<4710;<Text_1>;<Text_2>;<Wert_1>;<Text_3>;<Wert_2>;<Text_4>;...usw.
<4711 - eindeutiger Identifier in Form einer Ziffernfolge>;<Text_1>;<Text_2>;<Wert_1>;<Text_3>;<Wert_2>;<Text_4>;...usw.
<4712;<Text_1>;<Text_2>;<Wert_1>;<Text_3>;<Wert_2>;<Text_4>;...usw.
Die Zeile in dem die 4711 vorkommt interessiert mich. Von dort möchte ich die Werte 1 und 2 speichern.
Ich komme aber irgendwie nicht dran.
Mit den REs kann ich nur die 4711 eingrenzen, ich möchte aber nur die beiden Werte, oder zumindest die ganze Zeile.
Hat jemand vielleicht eine Idee?
Vielen Dank und beste Grüße
U32
ich habe ein ähnliches Problem.
Ich bin zwar mit den Python-HOWTOs und den Beiträgen dieses Forums schon in die Nähe der Lösung gekommen, aber eben nicht ganz.
Hintergrund:
Ich möchte von einer Webseite einen Wert auslesen. (Soweit - sogut)
Dazu habe ich mit BeautifulSoup und RE den Inhalt eingelesen und als Str-Text in eine Variable gespeichert. Das klappt sogar.
Nun interessiert mich aber nicht der ganze Text, sondern nur eine Zeile. Die Zeile hat sogar einen Wert, mit der man sie identifizieren kann.
Der Text sieht prinzipiell wie folgt aus:
<4710;<Text_1>;<Text_2>;<Wert_1>;<Text_3>;<Wert_2>;<Text_4>;...usw.
<4711 - eindeutiger Identifier in Form einer Ziffernfolge>;<Text_1>;<Text_2>;<Wert_1>;<Text_3>;<Wert_2>;<Text_4>;...usw.
<4712;<Text_1>;<Text_2>;<Wert_1>;<Text_3>;<Wert_2>;<Text_4>;...usw.
Die Zeile in dem die 4711 vorkommt interessiert mich. Von dort möchte ich die Werte 1 und 2 speichern.
Ich komme aber irgendwie nicht dran.
Mit den REs kann ich nur die 4711 eingrenzen, ich möchte aber nur die beiden Werte, oder zumindest die ganze Zeile.
Hat jemand vielleicht eine Idee?
Vielen Dank und beste Grüße
U32
Bitte nicht einen 5-jahre alten Thread fleddern. Stell bitte eine neue Frage. Und die Chancen auf Antwort erhoehen sich deutlich, wenn die gezeigten HTML-Schnipsel den echten entsprechen, und nicht etwas, das irgendwie paraphrasiert ist. Denn so wie das da aussieht kann ich mir *SEHR* schwer vorstellen, dass das irgendwer ausliefert. Denn ein Browser muss das ja auch noch anzeigen koennen, und das da ist kein HTML.