Textwrangler für Roh-Textexport in CSV oder Exel

Du hast eine Idee für ein Projekt?
Antworten
jofujofu
User
Beiträge: 1
Registriert: Montag 30. Juli 2018, 07:43

Hallo,

bin neu hier und ein Neuling in Python (sozusagen spät berufen) weil ich ein ML-Experiment im Text Bereich machen will.
Mein Problem ist der Ansatz in Python: Über das Einlesen ins Textbearbeitungs-Thema bin ich über die Biblotheken pandas, re, textblob, numpy,... gestolpert und weis eigentlich nicht mehr wo ich da jetzt wirklich anfangen soll, daher wäre mir ein Grundgerüst hilfreich das ich verfeinern kann. Mit re kann ich zwar die einzelnen Ausdrücke parsen, kann aber nicht den Textbody einlesen. Mit Pandas kann ich das ganze File in en Objekt lesen... nur dann nicht weiter damit umgehen. Mit sequenziellem Einlesen kann ich alles in einer Zeile analysieren aber halt nicht.... Beim Export in eine strukturiertes CSV File in Spaltenform mal ganz abgesehen...Der Berg ist groß und meine Zeit gering...

Es wäre mir geholfen wenn ich von eurer Erfahrung profitieren kann und den richtigen Ansatz finde in Form eines Grobgerüsts.
Im Nachgang ein Auszug aus dem Roh-Textfile.

Danke für jeglichen Hinweis zur Strukturierung - wenn ich hier falsch gelandet bin mit meinem Problem dann bitte ich den Admin um Verschiebung dieses Artikels.
Danke
Josef

Folgende "Keywords" würde ich gerne rauslesen können:
.) APA_Meldung: Meldungsnummer "0221"
.) Bereich: "EU/ Brexit/ Int. Beziehungen/ Regierungspolitik/ Großbritannien "
.) Titel: "Brexit - Britischer Außenminister warnt vor "No Deal" "
.) Untertitel: "Utl.: Hunt: Wir werden nicht nachgeben"
.) Textbody: "Der neue britische...(Schluss)"
.) APA_Time: "2018-07-23/12:55"
.) Kategorien: - LIste der Kategorien "Politik/Int. Beziehungen, Politik/Regierungspolitik, Politik/Regierungspolitik"
.) Geobezug: - LIste des Geobezugs "Großbritannien, Europäische Union, Deutschland/Berlin"
.) Thema: - Liste des Themas "Brexit, …"

Danach folgt ein neuer Artikel der wieder mit APA#### beginnt. Ca. 1000 Artikel muss ich so in "Form" bringen

Beispiel des Exportfiles:



APA0221 5 AA 0259 WA Siehe APA0215/23.07 Mo, 23.Jul 2018
EU/ Brexit/ Int. Beziehungen/ Regierungspolitik/ Großbritannien
Brexit - Britischer Außenminister warnt vor "No Deal"
Utl.: Hunt: Wir werden nicht nachgeben
Berlin (APA/Reuters) -
Der neue britische Außenminister Jeremy Hunt warnt vor einem Scheitern der Verhandlungen über einen Austritt des Königreichs aus der Europäischen Union. Es bestehe derzeit "ein sehr echtes Risiko, dass es aus Versehen zu einem Brexit ohne Abkommen kommt", sagte Hunt am Montag auf einer Pressekonferenz mit seinem deutschen Kollegen Heiko Maas in Berlin.
Dies liege daran, dass derzeit viele in der EU der Ansicht seien, man müsse nur lange genug warten und dann würden die Briten schon nachgeben. Doch das werde nicht passieren. Die EU müsse daher ihren Verhandlungsansatz ändern.
Maas nannte das kürzlich von den Briten vorgelegte Weißbuch, das die Vorstellungen Londons in den Verhandlungen umfasst, einen wichtigen Beitrag, um "Schritt für Schritt zu einem geordneten Brexit zu kommen". Man sei aber noch nicht in allen Punkten zu einem Ergebnis gekommen. Es bestünden noch Probleme und ungeklärte Fragen, weshalb es weitere Gespräche geben müsse.
Beide Politiker betonten, dass ihnen auch nach einem Brexit an einer engen und freundschaftlichen Partnerschaft gelegen sei. Die Beziehungen könnten jedoch einen Riss bekommen, sollte der Brexit ungeordnet verlaufen, warnte Hunt. In Großbritannien würde sich die Einstellung einer ganzen Generation gegenüber der EU ändern, was der Partnerschaft schaden würde.
Es war Hunts erste bilaterale Auslandsreise als neuer Außenminister. Er wurde vergangene Woche zum Nachfolger Boris Johnsons ernannt, der im Streit über die Brexit-Strategie von Premierministerin Theresa May zurückgetreten war.
(Schluss) hel
APA0221 2018-07-23/12:55
231255 Jul 18

Kategorien:
Politik/Int. Beziehungen
Politik/Regierungspolitik
Politik/Regierungspolitik/Wirtschaftspolitik
Geobezug:
Großbritannien
Europäische Union
Deutschland/Berlin
Thema:
Brexit

APA0219 5 CA 0153 Siehe APA0118/23.07 Mo, 23.Jul 2018
EU/ Brände/ Wald/ Schweden/ Europäische Union
EU vermeldet Rekord an Hilfe für Waldbrände in Schweden
Utl.: Unterstützung aus Österreich und sieben anderen EU-Ländern
….
…...
Benutzeravatar
kbr
User
Beiträge: 1487
Registriert: Mittwoch 15. Oktober 2008, 09:27

Du hast das Glück bereits sequentiell strukturierte Daten auswerten zu sollen. Die brauchst Du eigentlich nur zeilenweise einlesen und in eine geeignete Datenstruktur zu überführen. Eine entsprechend entworfene APA-Klasse könnte dafür sinnvoll sein.
Pakete wie pandas oder textblob sind für andere Aufgabenstellungen gedacht.
Antworten