ich versuche, eine große Anzahl von Posts aus den Sozialen Medien mit Hilfe von TextBlob Classifier und einem selbst erstellten Trainingsmodell in Pos und Negativ und Neutral zu klassifizieren.
Das Trainingsmodell sieht ungefähr so aus, besteht aber aus über 3000 Datensätzen
Code: Alles auswählen
from text.blob import TextBlob
train = [('Ich liebe dieses Sandwich.', 'pos'),
('Das ist ein toller Ort!', 'pos'),
('Ich habe ein sehr gutes Gefühl bei diesen Bieren.', 'pos'),
('Das ist meine beste Arbeit.', 'pos'),
("Was für ein toller Ausblick", 'pos'),
('Ich mag dieses Restaurant nicht', 'neg'),
('Ich habe genug von diesem Zeug.', 'neg'),
("Ich kann damit nicht umgehen", 'neg'),
("Er ist mein Erzfeind!", "neg"),
('Mein Chef ist furchtbar.', 'neg') ]
Egal wie umfangreich ich mein Trainingsmodell erstelle, die Kategorisierung bleibt bei 40 / 45 %
Sogar habe ich das Gefühl, dass je größer das Trainingsmodell mache, desto schlechter die Ergebnisse ausfallen.
Mir ist bewusst, dass ich auf 100% nicht kommen werde, mit 45 % kann ich mich auch nicht zufrieden geben.
Verpasse ich bei oder nach Kategorisierung einen wichtigen Schritt? Wenn nein, kennt ihr einen ähnlichen Algorithmus der vielleicht mit Hilfe eines Trainingsmodells besser Ergebnisse als TextBlob Classifier liefert?