Seite 1 von 1

KI bzw ML zur Analyse und Bearbeitung von Textdateien

Verfasst: Montag 13. Januar 2020, 15:28
von jokulema
Hallo liebe Forumsmitglieder,

vorweg vielen Dank für eure Hilfe!

Ich bin aktuell Student einer deutschen Hochschule und im Sinne einer Abschlussarbeit soll ich ein Programm suchen, modifizieren oder selber schreiben welches folgende Aufgabe mit Hilfe von KI oder ähnlichem übernehmen kann:

Mehrere Worte hintereinander sollen so modifiziert werden, dass ein Teil der Buchstaben entfallen. Mit fällt es schwer, die Problematik in Worte zu fassen, daher ein Beispiel:

Baum wird zu BM
Blume wird zu Bl
grün wird zu gr
rot wird zu ro

Wenn ich jetzt Beispieldaten habe die zb. folgendes enthalten
Baum grün - bm_gr
Baum rot - br_ro
Blume grün - bl_gr

Wenn ich jetzt das Programm mit neuen Daten füttere soll es mit Vorschläge machen und ich soll das Programm zb trainiere können.
Blume rot
und das Programm soll mit dann vorschlagen: bl_ro

Damit ich diesen Vorgang nicht für die unzähligen Daten selbst machen muss, wäre es schön, wenn eine KI mich dabei unterstützen könnte.

Ich wäre euch über jegliche Hilfe sehr sehr dankbar und stehe natürlich für alle Rückfragen zur Verfügung.

Liebe Grüße
JOKULEMA

Re: KI bzw ML zur Analyse und Bearbeitung von Textdateien

Verfasst: Montag 13. Januar 2020, 16:26
von __deets__
Mit dieser Beschreibung kommt man nicht weit. Schon als Mensch ist mit total unklar, nach welchen Regeln da was wie verkürzt wird. Und gibt es Vorgaben bezüglich der Eindeutigkeit der Abbildung? Und ich verstehe auch nicht, wer das jetzt machen soll. Du? Und die KI ist nur deine Idee? Oder soll das deren Aufgabe sein? Und was ist das Akzeptanzkriterium? Gibt es “falsche” Übersetzungen?

Re: KI bzw ML zur Analyse und Bearbeitung von Textdateien

Verfasst: Montag 13. Januar 2020, 16:34
von ThomasL
Die Beispiele sind ja schon "verwirrend".
Warum wird Baum zu BM, also 1. und 4. Buchstabe und Blume zu Bl, 1. und 2. Buchstabe? (ich vermute das große M ist ein Typo, wenn nicht, was für Regeln gibt es dafür?)
Und warum wird aus Baum Grün dann bm_gr, wo kommt der Unterstrich her? Warum nicht Bmgr ?

Ein neuronales Netz (KI) muss trainiert werden mit Beispielen, mit vielen, sehr vielen, am besten mit vielen hoch vielen Beispielen,
die müssten erst mal generiert werden um überhaupt anfangen zu können.
Und die Logik um die Beispiele zu generieren könnte man dann eigentlich direkt verwenden um die Daten zu modifizieren.

Re: KI bzw ML zur Analyse und Bearbeitung von Textdateien

Verfasst: Montag 13. Januar 2020, 16:36
von Jankie
Müsste bei Baum rot nicht bm_ro rauskommen? Und gibt es nur Baum und Blume? Nur rot und grün?

Re: KI bzw ML zur Analyse und Bearbeitung von Textdateien

Verfasst: Montag 13. Januar 2020, 17:33
von nezzcarth
Sind das echte Beispiele oder ausgedachte? Und ist der Unterschied in der Groß-/Kleinschreibung wichtig? Wenn es 'rt' statt 'ro' wäre, wäre die Regel: Entferne alle Vokalgrapheme und nimm von dem, was übrig bleibt, die ersten beiden Buchstaben.

Ansonsten wären weitere (echte und exakte wiedergegebene) Beispiele, sowie evtl. vorhandene weitere Infos (z.B. Wortarten, ...) Hilfreich.

Re: KI bzw ML zur Analyse und Bearbeitung von Textdateien

Verfasst: Mittwoch 22. Januar 2020, 12:35
von jokulema
Guten Tag und vielen Dank für die schnellen Antworten!

Die von mir angeführten Beispiele sind ausgedacht. Leider darf und kann ich keine realen Beispiele veröffentlichen.

Ich habe jetzt auch neue Informationen bekommen. Die Textklassifizierung befolgt teilweise ersichtlichen regeln, teilweise von irgendwelchen Individuen selbst erdachten regeln. Am besten wäre ein Programm, welches diese Regeln anhand von Beispielen selbst erkennt/ erlernt.
Dabei darf es sich auch um ein Programm handeln, welches es schon gibt.

Eigentlich soll folgender Prozess geschehen:
Ich öffne das Programm und öffne darüber eine Exel Liste.
In dieser Liste sind Wörter enthalten die etwas beschreiben:
Baum 25m Eiche grün
30m Eiche Baum grün
Baum Eiche 15m grün
0,03m Rose rot
0,02m rot Rose
Rose weiß 0,02m

Jetzt kann ich über das Programm die Einträge bearbeiten uns es erlernt darüber (am besten über eine KI, auch wenn ich das in diesem Fall als nicht unbedingt notwendig erachte) das Schema nach dem ich die Nomenklatur vorgebe

Excel
Baum 25m Eiche grün
30m Eiche Baum grün
Baum Eiche 15m grün
0,03m Rose rot
0,02m rot Rose
Rose weiß 0,02m

Baum 25m Eiche grün - Programm schlägt vor:Baum 25m Eiche grün- Ich sage Reihenfolge i.O -Programm schlägt Abkürzung vor:"irgendeinen Wust, weil es noch nichts gelernt hat"- Ich passe an: BM 25m E gr

30m Eiche Baum grün- Programm schlägt vor: Baum 30m Eiche grün- - Ich sage Reihenfolge i.O -Programm schlägt Abkürzung vor: BM 30m E gr

Baum Eiche 15m grün-Programm schlägt vor: Baum 15m Eiche grün.- Ich sage Reihenfolge i.O - Programm schlägt Abkürzung vor: BM 15m E gr

usw.. und wenn ich das jetzt für die Rose mache würde das Programm merken:
Worte sind "Nomen" "Höhenangabe-Adjketiv" "Farbe-Adjektiv" und diese Reichenfolge dann anhand der Baumklassifierzung anpassen und vorschlagen

Das Problem ist, dass es zwar Regeln gibt, diese aber von Benutzer zu Benutzer - Unternehmen zu Unternehmen- unterschiedlich sind und aus diesem Grund nicht allgemein erfasst werden können.

Vielleicht gibt es ja schon ein Programm, was genau diese Aufgabe erledigt.
Würde einiges an Arbeit sparen. Ich code momentan nämlich selbst, mit Spacy usw um darüber dann die einzelnen Bezeichnungen anzupassen. Schaffe das allerdings nur für einen Regelsatz eines Unternehmens, aber Ziel bzw Aufgabe ist es, keinen Regelsatz zu implementieren, sondern, dass das Programm das selbst erkennt.
Dabei will ich keineswegs, dass ihr mir das Programmiert sondern einfach Ideen und Anregungen sammeln und versuchen, an die Aufgabe so effizient wie möglich zu gehen.

Bin ich richtig mit der Annahme, dass es sich bei dem Problem um ein Text Classification Problem handelt?

Vielen Vielen Dank euch und Liebe Grüße
Jokulema