Ähnliche Inhalte Spalte identifizieren und speichern

metall · Samstag 27. Juni 2020, 12:22

Hallo,

ich muss für eine Analyse meine Daten strukturieren.
Dafür muss ich die Spalten in meinem Data.frame auf Ähnlichkeit untersuchen.
Ich habe beispielsweise "Laufen lang", "lang laufen", "lang Laufen". Das sind immer andere Schreibweisen, aber beschreiben eigentlich immer das gleiche.
"Lang laufen" ist nur ein Beispiel für viele Wortgruppen, die mir unbekannt sind.

Es sollen somit die Ähnlichkeiten aufgedeckt werden und anschließend "Lang laufen" an alle Positionen geschrieben werden.

Ich bin neu bei Python und weiß nicht wie ich das umsetzen muss bzw. welche Pakete ich dafür benötige.
Vllt hatte jemand von euch das gleiche Problem gehabt und kann mir vllt weiterhelfen.

Vielen Dank,
metall

__deets__ · Samstag 27. Juni 2020, 12:32

Das Problem nennt sich Natural Language Processing, und dafuer gibt es in Python das NLTK: https://www.nltk.org/

Damit kann man solche Probleme versuchen anzugehen. Das ist aber nicht einfach nur ein import und dann magischer "nltk.loesmirmeinproblem(eingabe)"-Aufruf. Da muss man sich schon ein bisschen mit beschaeftigen.

Man kann fuer den konkreten Fall natuerlich auch einfach mit eine Menge von normalisierten Worten arbeiten, und die dann auf einen generischen Begriff abbilden. Weil sich ja nur Gross/Kleinschreibung und Reihenfolge unterscheiden. In dem Moment, wo das aber komplizierter wird - zb langlaufen, oder Langlaeufer - muss man eben mit sowas wie dem NLTK arbeiten.

Oder man schmeisst ausreichend viele Beispiele in ein maschinelles Lernverfahren.