Doc Datei auslesen und meldung aussenden?

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
haroon94
User
Beiträge: 1
Registriert: Mittwoch 10. Juni 2015, 17:00

Hallo,

ich wollte schon seit Jahren eine Programmiersprache lernen, hatte aber nie die Motivation dafür. Ich lerne jetzt Python unter Codeacademy und möchte ein reales "Problem" lösen.

Es geht darum, dass ich von einem Server eine .Doc datei herunterladen möchte. Diese soll dann ausgelesen werden und ich soll eine Meldung erhalten, falls eine Zifferfolge (z.B 1234) in der doc-Datei vorkommt.

Die Frage ist nun wie ich überhaupt anfange das zu schreiben? Ich habe Grundgrundlagen in Java und die allerbasicsten basics in Python. Ich würde diese Aufgabe sehr gerne von einer Software lösen lassen, da ich nicht jede woche oder so die Datei laden möchte um nachzusehen, ob meine Nummer drinsteht. Außerdem finde ich, ist es eine elegante Lösung das so zu machen 8)

MfG
Sirius3
User
Beiträge: 17749
Registriert: Sonntag 21. Oktober 2012, 17:20

@haroon94: DOC ist ein proprietäres Dateiformat von Microsoft für das ich auf die schnelle keinen Reader gefunden habe. Theoretisch dürfte es nicht allzu schwer sein, nur den Text zu extrahieren, aber dazu muß man schon Erfahrung im Schreiben von Binärdatei-Parsern haben. Einfacher geht es, wenn man die COM-Schnittstelle von Wort mit win32com nutzen kann und will. Bei DOCX-Dateien gibt es immerhin python-docx, das aber eher zum Erzeugen von DOCX-Dateien da zu sein scheint. Mit ein bißchen Suchen dürfte man aber mit elementree innerhalb der xml-Dateien den passenden Text-Block einfach finden können.
Antworten