Namen aus einem Text extrahieren o. Named Entity Recogntion

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Uhrenmacher
User
Beiträge: 16
Registriert: Freitag 3. Oktober 2014, 12:00

@Sirius3

Das gibts doch nicht! Vielen Dank!
Ich hatte es verdammt noch einmal damit versucht, allerdings hatte ich nicht noch die eine "extra" Klammer drum rum! Ich hatte nur "neue_liste.append(m.start(), m.end(), m.group(1))" und da habe ich natürlich eine Fehlermeldung bekommen. Meine Güte!

/Edit
Es hat mich wieder ein paar Minuten gekostet, aber jetzt habe ich sogar verstanden, warum da noch einmal eine Klammer rum musste.
U32
User
Beiträge: 25
Registriert: Sonntag 6. Oktober 2019, 13:34

Hallo Kollegen!

ich habe ein ähnliches Problem.
Ich bin zwar mit den Python-HOWTOs und den Beiträgen dieses Forums schon in die Nähe der Lösung gekommen, aber eben nicht ganz.

Hintergrund:
Ich möchte von einer Webseite einen Wert auslesen. (Soweit - sogut)

Dazu habe ich mit BeautifulSoup und RE den Inhalt eingelesen und als Str-Text in eine Variable gespeichert. Das klappt sogar. :wink:
Nun interessiert mich aber nicht der ganze Text, sondern nur eine Zeile. Die Zeile hat sogar einen Wert, mit der man sie identifizieren kann.

Der Text sieht prinzipiell wie folgt aus:

<4710;<Text_1>;<Text_2>;<Wert_1>;<Text_3>;<Wert_2>;<Text_4>;...usw.
<4711 - eindeutiger Identifier in Form einer Ziffernfolge>;<Text_1>;<Text_2>;<Wert_1>;<Text_3>;<Wert_2>;<Text_4>;...usw.
<4712;<Text_1>;<Text_2>;<Wert_1>;<Text_3>;<Wert_2>;<Text_4>;...usw.


Die Zeile in dem die 4711 vorkommt interessiert mich. Von dort möchte ich die Werte 1 und 2 speichern.
Ich komme aber irgendwie nicht dran.
Mit den REs kann ich nur die 4711 eingrenzen, ich möchte aber nur die beiden Werte, oder zumindest die ganze Zeile.

Hat jemand vielleicht eine Idee?

Vielen Dank und beste Grüße
U32
__deets__
User
Beiträge: 14543
Registriert: Mittwoch 14. Oktober 2015, 14:29

Bitte nicht einen 5-jahre alten Thread fleddern. Stell bitte eine neue Frage. Und die Chancen auf Antwort erhoehen sich deutlich, wenn die gezeigten HTML-Schnipsel den echten entsprechen, und nicht etwas, das irgendwie paraphrasiert ist. Denn so wie das da aussieht kann ich mir *SEHR* schwer vorstellen, dass das irgendwer ausliefert. Denn ein Browser muss das ja auch noch anzeigen koennen, und das da ist kein HTML.
Antworten