Text Analyse - Häufigkeit der Begriffe aus Wörterbuch in Dateien finden
Verfasst: Mittwoch 8. April 2020, 15:13
Hallo, ich bin noch nicht mit Python vertraut. Dass Textanalysen mit Python möglich sind, habe ich aber bereits in Erfahrung gebracht.
Allerdings habe ich viele Fragen wie ich die Aufgabe der Text Analyse am besten starten sollte und weiß nicht, ob ich in einigen Bereichen in die falsche Richtung gehe. Ich würde gern herausfinden welche Guidelines für mich wichtig sind.
Ich habe mehrere Dateien und möchte die Häufigkeit von Suchbegriffen herausfinden. Die Suchbegriffe sind mehreren Kategorien zugeordnet. So möchte ich die Kategorien später vergleichen. Die Suchbegriffe bestehen oft aus mehr als einem Wort.
Wie stark die Kategorien in der jeweiligen Datei ist, möchte ich später vergleichen. Jede Datei ist dabei einer bestimmten Beobachtung zugeordnet. Es besteht eine Tabelle (in Stata) in der die Beobachtungen in den Zeilen aufgelistet sind. Eine Variable hat eine bestimmte Bezeichnung, mit der ich die Beobachtungen identifizieren kann. Die Dateien habe ich daher jeweils so benannt. Nun möchte ich also eine Text Analyse mit den Dateien durchführen und die Ergebnisse in die Tabelle als weitere Spalten anfügen. Später werde ich Regressionen vornehmen und die Kategorien analysieren. Ich habe die Vorgabe die Statistik mit Stata durchzuführen.
Ich habe Fragen zum Code, zu Wörterbüchern und wie für mehrere Dateien die Anzahl angezeigt werden kann.
1. Gibt es bestimmte Libraries mit Code für die Text Analyse? Ich habe die Idee, dass ich dort meine Suchbegriffe einsetzen kann.
1.a Ist ein Code möglich bei dem ein Katalog mit Suchbegriffen verknüpft werden kann?
1.b Für mich ist wichtig herauszufinden welcher Wert eine Kategorie insgesamt hat. Es ist nicht relevant wie oft ein einzelner Suchbegriff vorkommt. Kann ich daher einen Wert herausbekommen, der die Gesamtheit der Häufigkeiten aller Wörter einer Kategorie ausgibt? Oder ist ein Zwischenschritt nötig und ich muss für jeden Suchbegriff einzeln die Häufigkeit herausfinden und dann die Häufigkeiten innerhalb der Kategorie addieren?
1.c Die Suchbegriffe sind in den Sprachen Deutsch, Englisch, Französisch, Spanisch. Sind Besonderheiten bei den Deklinationen zu beachten? Müssen zum Beispiel "künstliche Intelligenz" und "künstlicher Intelligenz" als zwei Suchbegriffe gesucht werden oder gibt es andere Lösungen?
1.d Viele Begriffe haben Umlaute, Akzente oder Apostroph. Sind da Besonderheiten zu beachten?
1.e Wie ist es möglich alle Wörter in Kleinbuchstaben umzuwandeln bzw. zu erfassen? So muss im Wörterbuch nur eine Version mit Kleinbuchstaben geführt werden.
2. Gibt es eine Übersicht der Themen für die bereits Wörterbücher existieren? Zum Beispiel zum Thema Digitalisierung und zum Thema Corporate Governance.
3. Kann eine Tabelle ausgeworfen werden, um die Häufigkeit je Kategorie pro Datei anzuzeigen?
3.a Kann eine Spalte ausgeworfen werden, die den jeweiligen Dateinamen anzeigt?
3.b Kann für jede Kategorie eine Spalte erstellt werden, in der der Wert angezeigt wird?
3.c Einige Kategorien können noch zusammengenommen werden. Wie kann ich die Werte in einer übergeordneten Kategorie addieren?
3.d Kann die Tabelle mit Excel ausgeworfen werden?
3.e Gibt es eine maximale Anzahl an Dateien die analysiert werden kann?
3.f Können die Dateien in PDF vorliegen oder müssen es txt Dateien sein?
4.a Wie kann ich die Gesamtanzahl der Wörter in einer Datei herausfinden? Ich denke, dass ich dies herausfinden muss, um die Dateien miteinander vergleichen zu können. Dann kann ich eine Prozentzahl herausfinden: (Anzahl Häufigkeit in einer Kategorie)/(Anzahl aller Wörter)
4.b Gibt es Vorlagen zu stopwords? Ich würde die stopwords zu allen 4 Sprachen (Deutsch, Englisch, Französisch, Spanisch) über alle Dateien gleichermaßen rüberlaufen lassen. So kann dann die Gesamtzahl an relevanten Wörtern die Grundlage bilden.
Vielen Dank,
Robert
Allerdings habe ich viele Fragen wie ich die Aufgabe der Text Analyse am besten starten sollte und weiß nicht, ob ich in einigen Bereichen in die falsche Richtung gehe. Ich würde gern herausfinden welche Guidelines für mich wichtig sind.
Ich habe mehrere Dateien und möchte die Häufigkeit von Suchbegriffen herausfinden. Die Suchbegriffe sind mehreren Kategorien zugeordnet. So möchte ich die Kategorien später vergleichen. Die Suchbegriffe bestehen oft aus mehr als einem Wort.
Wie stark die Kategorien in der jeweiligen Datei ist, möchte ich später vergleichen. Jede Datei ist dabei einer bestimmten Beobachtung zugeordnet. Es besteht eine Tabelle (in Stata) in der die Beobachtungen in den Zeilen aufgelistet sind. Eine Variable hat eine bestimmte Bezeichnung, mit der ich die Beobachtungen identifizieren kann. Die Dateien habe ich daher jeweils so benannt. Nun möchte ich also eine Text Analyse mit den Dateien durchführen und die Ergebnisse in die Tabelle als weitere Spalten anfügen. Später werde ich Regressionen vornehmen und die Kategorien analysieren. Ich habe die Vorgabe die Statistik mit Stata durchzuführen.
Ich habe Fragen zum Code, zu Wörterbüchern und wie für mehrere Dateien die Anzahl angezeigt werden kann.
1. Gibt es bestimmte Libraries mit Code für die Text Analyse? Ich habe die Idee, dass ich dort meine Suchbegriffe einsetzen kann.
1.a Ist ein Code möglich bei dem ein Katalog mit Suchbegriffen verknüpft werden kann?
1.b Für mich ist wichtig herauszufinden welcher Wert eine Kategorie insgesamt hat. Es ist nicht relevant wie oft ein einzelner Suchbegriff vorkommt. Kann ich daher einen Wert herausbekommen, der die Gesamtheit der Häufigkeiten aller Wörter einer Kategorie ausgibt? Oder ist ein Zwischenschritt nötig und ich muss für jeden Suchbegriff einzeln die Häufigkeit herausfinden und dann die Häufigkeiten innerhalb der Kategorie addieren?
1.c Die Suchbegriffe sind in den Sprachen Deutsch, Englisch, Französisch, Spanisch. Sind Besonderheiten bei den Deklinationen zu beachten? Müssen zum Beispiel "künstliche Intelligenz" und "künstlicher Intelligenz" als zwei Suchbegriffe gesucht werden oder gibt es andere Lösungen?
1.d Viele Begriffe haben Umlaute, Akzente oder Apostroph. Sind da Besonderheiten zu beachten?
1.e Wie ist es möglich alle Wörter in Kleinbuchstaben umzuwandeln bzw. zu erfassen? So muss im Wörterbuch nur eine Version mit Kleinbuchstaben geführt werden.
2. Gibt es eine Übersicht der Themen für die bereits Wörterbücher existieren? Zum Beispiel zum Thema Digitalisierung und zum Thema Corporate Governance.
3. Kann eine Tabelle ausgeworfen werden, um die Häufigkeit je Kategorie pro Datei anzuzeigen?
3.a Kann eine Spalte ausgeworfen werden, die den jeweiligen Dateinamen anzeigt?
3.b Kann für jede Kategorie eine Spalte erstellt werden, in der der Wert angezeigt wird?
3.c Einige Kategorien können noch zusammengenommen werden. Wie kann ich die Werte in einer übergeordneten Kategorie addieren?
3.d Kann die Tabelle mit Excel ausgeworfen werden?
3.e Gibt es eine maximale Anzahl an Dateien die analysiert werden kann?
3.f Können die Dateien in PDF vorliegen oder müssen es txt Dateien sein?
4.a Wie kann ich die Gesamtanzahl der Wörter in einer Datei herausfinden? Ich denke, dass ich dies herausfinden muss, um die Dateien miteinander vergleichen zu können. Dann kann ich eine Prozentzahl herausfinden: (Anzahl Häufigkeit in einer Kategorie)/(Anzahl aller Wörter)
4.b Gibt es Vorlagen zu stopwords? Ich würde die stopwords zu allen 4 Sprachen (Deutsch, Englisch, Französisch, Spanisch) über alle Dateien gleichermaßen rüberlaufen lassen. So kann dann die Gesamtzahl an relevanten Wörtern die Grundlage bilden.
Vielen Dank,
Robert