Seite 1 von 1

Zeilenweise Textverarbeitung aus Excel in Python

Verfasst: Dienstag 18. November 2014, 00:28
von Dantegro
Hallo zusammen,

in einem kleinen Projekt von mir beschäftige ich mich mit der Streaming-API von Twitter zu einem Suchterm.
Ich möchte in einer späteren NLTK-Analyse gewisse Schlüsse (die folgen später..) anhand von Tweets ziehen können, auch um diese weiterverarbeitbar zu machen.

Nun besteht meine Frage darin, ob man mit Hilfe eines regulären Ausdrucks o.ä. ein gewisses Textretrieval einbauen und in Python (besser wäre hier sogar eine weitere Überführung in .txt) ausgeben kann?

Dreht sich um Folgendes:
Bild
Der Tweet geht noch viel weiter, allerdings möchte ich nur die Text-Sparte herausziehen. Problem hierbei ist: Es ist alles in einer Zelle gespeichert. Und ich habe über tausende Zeilen an weiteren Tweets.

Vielen Dank im Voraus!

Re: Zeilenweise Textverarbeitung aus Excel in Python

Verfasst: Dienstag 18. November 2014, 00:42
von BlackJack
@Dantegro: Wer ist denn auf die bescheuerte Idee gekommen *JSON* in Excel zu speichern‽ Da brauchst Du keinen regulären Ausdruck sondern das `json`-Modul aus der Standardbibliothek. Und `xlrd` um das Excel-Dokument zu lesen.

Re: Zeilenweise Textverarbeitung aus Excel in Python

Verfasst: Dienstag 18. November 2014, 08:14
von bwbg
Möglicherweise ist das Ganze in einer CSV-Datei (warum auch immer) gespeichert und wird nur irrtümlich als Excel-Datei bezeichnet.

Wobei der Inhalt weiterhin JSON ist.

Vollständige Informationen wären hilfreich.

Re: Zeilenweise Textverarbeitung aus Excel in Python

Verfasst: Dienstag 18. November 2014, 10:06
von Sirius3
Möglicherweise ist das sogar nur eine Text-Datei, wo ein JSON-Ausdruck pro Zeile steht. Man kann so einiges in Excel öffnen und sich wundern.

Re: Zeilenweise Textverarbeitung aus Excel in Python

Verfasst: Dienstag 18. November 2014, 16:47
von Dantegro
Jo, so siehts auch aus:
Gespeichert ist dies in einer .csv-Datei.
Immerhin nun die Erkenntnis, dass es sich als JSON irgendwie verarbeiten lässt :)

Wie lasse ich mir denn die Schlüsselwerte vom Schlüssel {text} ausgeben in JSON? Hab mittlerweile das ganze Dokument in einer JSON-Datei gespeichert

lg

Re: Zeilenweise Textverarbeitung aus Excel in Python

Verfasst: Dienstag 18. November 2014, 16:51
von BlackJack
@Dantegro: In JSON gar nicht, das ist das Dateiformat. Nachdem Du das mit dem `json`-Modul geparst hast bekommst Du eine Datenstruktur die aus entsprechenden Grunddatenstrukturen von Python bestehen. Also Wörterbücher (`dict`), Listen (`list`), und so weiter. Wie man damit umgeht, sollte in jedem Grundlagentutorial stehen.

Re: Zeilenweise Textverarbeitung aus Excel in Python

Verfasst: Dienstag 18. November 2014, 16:54
von Dantegro
/edit: Problem solved