rogerb hat geschrieben: ↑Mittwoch 14. Juli 2021, 00:35
schönes Beispiel, hätte nicht gedacht, dass das so einfach ist.
Bisher hatte ich mich ehrlich gesagt nicht sonderlich für ML interessiert.
Naja, sagen wir so: ich hab's einfach gemacht. Man kann da schon wesentlich mehr Arbeit hineinstecken... Der größte Aufwand ist meist, verschiedene Kombinationen von Datenaufbereitung, Merkmalsextraktion und ML-Algorithmen mit randomisierten Trainingsdaten zu füttern und zu schauen, wie gut diese Kombinationen dann jeweils funktionieren...
rogerb hat geschrieben: ↑Mittwoch 14. Juli 2021, 00:35
Bei kurzen Worten merkt man schon wie es ungenauer mit der Erkennung wird.
Naja, Garbage in, Garbage out... Ich mein', so ein Zeichen hat ja nur einen sehr begrenzten Informationsgehalt, und wenn die Zeichenkette kurz genug ist... dann ist halt naturgemäß wenig Information drin. Man kann die Ergebnisse sehr deutlich beeinflussen, je nachdem, wie man die Merkmale konstruiert, wie groß die Trainingsdaten sind, und welchen Algorithmus man wählt. Naive Bayes ist eben einer der bekanntesten und performantesten, aber im Kern ziemlich einfach und nicht für alle Anwendungsfälle geeignet. Und das von mir gezeigte ist ja auch alles andere als ein typischer Anwendungsfall, ganz im Gegenteil ist diese Art der Nutzung durchaus ein bisschen... kreativ, diplomatisch gesagt. Aber für den Fall des TO und die von ihm genannten Beispieldaten funktioniert der Ansatz ziemlich gut, würde ich sagen.
rogerb hat geschrieben: ↑Mittwoch 14. Juli 2021, 00:35
Für einen OCR-Text sollte das aber schon eine Menge bringen.
Probier's halt aus... obwohl, in dem Fall würde ich es vermutlich eher erst einmal mit Bag-Of-Words, Wort-Ngrammen und Wörterbüchern anfangen. Durch die Accuracy-Funktion von NLTK lassen sich die Ergebnisse zum Glück recht einfach überprüfen.
rogerb hat geschrieben: ↑Mittwoch 14. Juli 2021, 00:35
Man kann sich die n-grams anscheinend auch sehr gut vom NLTK als Tuple erstellen lassen:
Die hab' ich vor einigen Jahren mal ausprobiert, und sie war mir damals leider zu langsam. Keine Ahnung, ob das immer noch so ist... muß ich mir wohl mal wieder angucken...
