Endungen von Verben entfernen

merve28 · Mittwoch 16. März 2016, 15:38

Hallo ich möchte folgende Funktion erweitern, sodass die Endungen "ing" und "d" nur von den Wortarten VBG, VBN und VBD entfernt werden. Ich habe den Text vorher getagged und möchte nun diese Funktion anwenden, kann mir da jemand vielleicht behilflich sein? Denn die Funktion entfernt von allen Wortarten die genannten Endungen.

def stem(word):
regular = r'^(.*?)(ing|d)?$'
stem, suffix = re.findall(regular, word)[0],
return stem

LG

noisefloor · Mittwoch 16. März 2016, 19:12

Hallo,

lies' dein Posting doch mal und tu' so, als hättest du keine Ahnung, was du vorher gemacht hast. Wahrscheinliches Ergebnis: dein Posting ist völlig unverständlich.

Was ist den z.B. VBG? Wenn ich im Netz nach VBG suche, bekomme ich bei Google erstmal Treffer zu Berugsgenossenschaften. Bei der Suche nach "Wortart VBG" bekomme ich ein ziemlich lustiges Wort, nämlich "vertikale bandverstärkte Gastroplastik" - meinst du aber bestimmt nicht.

Und was heißt "Ich habe den Text vorher getagged"? Ein Beispiel wäre nett.

Und wird dann nach dem "taggen" bei `def stem(word):` für `word` wirklich nur ein Wort übergeben oder Wort plus Tag?

Gruß, noisefloor

pixewakb · Mittwoch 16. März 2016, 19:33

Du weißt, dass es zu deinem Bereich Literatur gibt!? Ich kenne wenigstens ein Buch dem Namen nach und weiß, unter welchem Stichwort dein Post läuft. Mich wundert, dass es dazu dann keine Musterlösung geben soll.

nezzcarth · Mittwoch 16. März 2016, 19:53

noisefloor hat geschrieben:Hallo,
Was ist den z.B. VBG? Wenn ich im Netz nach VBG suche, bekomme ich bei Google erstmal Treffer zu Berugsgenossenschaften. Bei der Suche nach "Wortart VBG" bekomme ich ein ziemlich lustiges Wort, nämlich "vertikale bandverstärkte Gastroplastik" - meinst du aber bestimmt nicht.

Und was heißt "Ich habe den Text vorher getagged"? Ein Beispiel wäre nett.

@Noisefloor:
Was er meint, sind denke ich Part-of-Speech-Tags und getaggt heißt in dem Kontext dann, dass die Elemente eines Textes automatisiert mit Wortarten annotiert worden sind. Es ist üblich dabei mit Abkürzungen zu arbeiten ('Tagset' wäre hier der Suchbegriff); VBG, VBD und VBN entstammen vmtl. dem Penn-Tree-Bank Tagset und stehen für Gerundium, Vergangenheits- bzw Partizipialform.

@merve28:
Gibt es einen Grund, weshalb du das selbst machst und nicht einen Stemmer verwendest, bzw. einen solchen Algorithmus implementierst?
Ansonsten hat noisefloor ja schon die wesentliche Frage gestellt. Die Wortarteninformation muss innerhalb der Funktion verfügbar sein und lässt sich dann leicht abfragen.

merve28 · Mittwoch 16. März 2016, 20:03

Ja es geht um Part-of-Speech-Tags.

merve28 · Mittwoch 16. März 2016, 20:18

pixewakb hat geschrieben:Du weißt, dass es zu deinem Bereich Literatur gibt!? Ich kenne wenigstens ein Buch dem Namen nach und weiß, unter welchem Stichwort dein Post läuft. Mich wundert, dass es dazu dann keine Musterlösung geben soll.

Kannst du auch mal den Titel des Buchs nennen?

merve28 · Mittwoch 16. März 2016, 20:20

nezzcarth hat geschrieben:
noisefloor hat geschrieben:Hallo,
Was ist den z.B. VBG? Wenn ich im Netz nach VBG suche, bekomme ich bei Google erstmal Treffer zu Berugsgenossenschaften. Bei der Suche nach "Wortart VBG" bekomme ich ein ziemlich lustiges Wort, nämlich "vertikale bandverstärkte Gastroplastik" - meinst du aber bestimmt nicht.

Und was heißt "Ich habe den Text vorher getagged"? Ein Beispiel wäre nett.
@Noisefloor:
Was er meint, sind denke ich Part-of-Speech-Tags und getaggt heißt in dem Kontext dann, dass die Elemente eines Textes automatisiert mit Wortarten annotiert worden sind. Es ist üblich dabei mit Abkürzungen zu arbeiten ('Tagset' wäre hier der Suchbegriff); VBG, VBD und VBN entstammen vmtl. dem Penn-Tree-Bank Tagset und stehen für Gerundium, Vergangenheits- bzw Partizipialform.

@merve28:
Gibt es einen Grund, weshalb du das selbst machst und nicht einen Stemmer verwendest, bzw. einen solchen Algorithmus implementierst?
Ansonsten hat noisefloor ja schon die wesentliche Frage gestellt. Die Wortarteninformation muss innerhalb der Funktion verfügbar sein und lässt sich dann leicht abfragen.

Ja es geht um Part-of-Speech-Tags.

Der Grund warum ich das mache ist, dass der PorterStemmer und der LancasterStemmer nicht gut genug sind, dass bedeutet, dass sie vor allem bei Verben die Endung "ing" stehen lassen und ich muss als Zwischenschritt in einem Projekt an der Uni entfernen (ich bin Anfänger, was programmieren und Python angeht). Ich weiß halt nicht, was ich in der Funktion ergänzen muss, sodass die Endungen von den Verben (also von VBG, VBN und VBD laut POS-Tag) entfernt werden.

nezzcarth · Mittwoch 16. März 2016, 21:17

merve28 hat geschrieben: Ich weiß halt nicht, was ich in der Funktion ergänzen muss, sodass die Endungen von den Verben (also von VBG, VBN und VBD laut POS-Tag) entfernt werden.

Na ja, Noisefloor hatte doch schon die wesentliche Frage dazu gestellt: In welcher Form liegt das Wortarten-Tag vor? Ist der Parameter "word" ein String, oder z.B. ein (named)tuple, o.ä.? Die Wortarten-Information muss halt innerhalb der Funktion zugänglich sein.

Übrigens: Ein Lemmatisierer hilft dir nicht weiter?

pixewakb · Donnerstag 17. März 2016, 00:11

Steven Bird, Ewan Klein und Edward Loper: Natural Language Processing with Python. Sebastopol u. a.: O'Reilly 2009. ISBN 978-0-596-51649-9

Das Buch soll nicht so gut sein, sagt eine, die das an der Uni macht. Damit habe ich nichts zu tun, sehe aber verschiedentlich die Ankündigungen für Veranstaltungen in den USA durchrauschen, die NLP als Thema ankündigen. Da muss es eine eigene Community geben.

merve28 · Donnerstag 17. März 2016, 18:36

nezzcarth hat geschrieben:
merve28 hat geschrieben: Ich weiß halt nicht, was ich in der Funktion ergänzen muss, sodass die Endungen von den Verben (also von VBG, VBN und VBD laut POS-Tag) entfernt werden.
Na ja, Noisefloor hatte doch schon die wesentliche Frage dazu gestellt: In welcher Form liegt das Wortarten-Tag vor? Ist der Parameter "word" ein String, oder z.B. ein (named)tuple, o.ä.? Die Wortarten-Information muss halt innerhalb der Funktion zugänglich sein.

Übrigens: Ein Lemmatisierer hilft dir nicht weiter?

"Word" ist eine List. Also ich hab meinen Text schon Lemmatisiert (mit dem WordNetLemmatizer) und da bleiben halt auch manche Endungen.

pillmuncher · Donnerstag 17. März 2016, 18:53

merve28 hat geschrieben:"Word" ist eine List.

"Counter" ist ein EventHandler.
"VideoFile" ist eine Datenbankverbindung.
"SumOfItems" ist ein ThreadPool.
"Boat" ist ein Flugzeug.

Wo ist hier der Fehler?

harryberlin · Donnerstag 17. März 2016, 19:59

Ich kenne nicht ein Verb das auf ing endet.

Sirius3 · Donnerstag 17. März 2016, 20:01

"sing!"

noisefloor · Donnerstag 17. März 2016, 20:05

Hallo,

Ich kenne nicht ein Verb das auf ing endet.

Mag ja sein - hat aber mit dem Problem des TE so rein gar nichts zu tun, dass ist ja eher dein Problem

Abgesehen davon ist hier auch nirgendwo die Rede davon, dass wir nur von der deutschen Sprache reden...

Gruß, noisefloor

harryberlin · Donnerstag 17. März 2016, 20:12

Sirius3 hat geschrieben:"sing!"

endet auf ausrufezeichen

BlackJack · Donnerstag 17. März 2016, 20:22

Ich habe sie jetzt nicht alle durchgesehen, aber da sind ein paar Verben dabei.

Code: Alles auswählen

$ grep '^[a-z].*ing$' /usr/share/dict/ngerman
abfing
abging
abhing
anfing
anging
auffing
aufging
ausging
beging
bring
dahinging
daranging
davonging
drauflosging
einging
empfing
entging
erging
fing
fortging
gering
ging
heranging
herging
hervorging
hinausging
hindurchging
hing
kling
nachging
niederging
sing
spring
umfing
umging
unterfing
unterging
verbring
verfing
verging
verkling
verlorenging
vorausging
vorbeiging
vorging
wegging
weiterging
zerging
zuging
zurückging
zusammenhing
zwing
überging

harryberlin · Donnerstag 17. März 2016, 20:25

ihr seid solche spielverderber.....

von umformen war keine rede.

noisefloor · Donnerstag 17. März 2016, 20:35

Hallo,

von umformen war keine rede

Es war auch nie die Rede davon, dass der TE nur Verben in der Grundform hat. Mal abgesehen davon, dass es selten Sinn macht, bei der Grundform eines Verbs noch was abzutrennen. Dann bleibt in den seltensten Fällen ein sinnvolles Wort übrig...

Gruß, noisefloor

BlackJack · Donnerstag 17. März 2016, 21:09

Zumal die Funktion `stem()` heisst. Wenn man nur die Stammform von Verben hat, braucht man so eine Funktion nicht.

nezzcarth · Donnerstag 17. März 2016, 21:19

BlackJack hat geschrieben:Zumal die Funktion `stem()` heisst. Wenn man nur die Stammform von Verben hat, braucht man so eine Funktion nicht.

Allerdings ist die von Stemmern ermittelte "Stammform" nicht (zwangsläufig) identisch mit der Ziterform (Infinitiv bei deutschen Verben) oder der Wurzel. Verschiedene Formen eines Worts sollen für den Zweck der Sprachverarbeitung auf eine gemeinsame Form abgebildet werden, die nicht zwangsläufig mit der übereinstimmen muss, die man durch grammatische Analyse erhält. Insofern kann ein Stemmer auf für "Stammformen" anwendbar sein.