bin neu hier im Forum und hoffe das mir jemand helfen kann. Ich habe die Aufgabe bekommen eine Worthäufigkeitsmatrix mit den 30 häufigsten Worten aus 4 Texten (Goetes Wahlverwandschaft, Fontanes Effi Briest, Raabes Stopfkuchen und Kafkas der Prozess) zu erstellen. Diese zu normalisieren und den Mittelwert zu berechnen. Wie ich den Mittelwert und die Normalisierung mittels Numpy durchführt weiß ich, mein problem ist es die Daten aus den Dateien in eine Form zu bringen um dies durchzuführen. Die >Texte stehen auf Textgrid frei zur Verfügung. Mein Problem : ich kann sie nur über open() überhaupt so öffnen das ich keinen unicodeescape Error bekomme. Mit Hilfe von collections Counter hab ich die Worte zählen lasse, komme allerdings nicht an die Top 30 heran. Außerdem bleiben aus irgend einem Grund die xml Schemaelemente in den Texten vorhanden und werden als Wörter mitgezählt...
Ich weiß es ist viel, aber dank der wunderbaren Struktur meines Studiengangs wurde uns nicht wirklich mitgeteilt, dass aus den vier Programmiersprachen die zur Wahl stehen nur Python wichtig ist. Ich muss mir also gerade Python selbst beibringen und das ist meine Einstiegsaufgabe

hoffe sehr jemand kann mir da helfen, ich bin am verzweifeln