Seite 1 von 1

MSWord - oh joy -.-

Verfasst: Mittwoch 10. Oktober 2012, 13:05
von patmaster
Hi,

Ich habe hier ein kleines Tool mit GUI (wxPython) das word Dokumente als Input bekommt und diese dann auf bestimmte Sachen, wie Formatvorlagen usw. prüft. Nun haben die user ständig Probleme mit Word bzw mit der COM-Schnittstelle die total random sind und auch nur bei manchen, manchmal auftreten.

Nun habe ich mir den HTML output von Word angesehen und glaube das ich den auch locker für die Überprüfungen verwenden kann. Ich muss also jetzt automatisiert, ohne die COM-Schnittstelle bzw pywin32 worddokumente nach html konvertieren.

Es handelt sich um Word 2007 und 2010.

Vorschläge ?

Re: MSWord - oh joy -.-

Verfasst: Mittwoch 10. Oktober 2012, 14:05
von lunar
@patmaster DOC- oder DOCX-Dokumente?

Re: MSWord - oh joy -.-

Verfasst: Mittwoch 10. Oktober 2012, 14:09
von patmaster
lunar hat geschrieben:@patmaster DOC- oder DOCX-Dokumente?
Es kommt tatsächlich beides vor.
Hab gesehen das es für docx ne lib für python gibt, aber leider mischen die das hier bunt durch.

Re: MSWord - oh joy -.-

Verfasst: Mittwoch 10. Oktober 2012, 17:05
von lunar
@patmaster Pech.

Es gibt keine Python-Bibliothek, die DOC verarbeiten kann. Es gibt überhaupt nur eine einzige Bibliothek, die DOC ohne Office lesen und schreiben kann, die Java-Bibliothek Apache POI. Die ließe sich aus Python heraus mit Py4J oder Jython verwenden, wobei letzteres eine alternative Python-Implementierung ist, in welcher Du wiederum auf Wx verzichten musst. Wenn Du keine Eile hast, und von Deinem Arbeitgeber gut bezahlt wirst, kannst Du auch versuchen, POI nach Python zu portieren. Die Bibliothek ist frei, gut dokumentiert, und hat irgendwo auch eine recht gute Dokumentation des DOC-Formats.

Re: MSWord - oh joy -.-

Verfasst: Donnerstag 11. Oktober 2012, 08:26
von patmaster
lunar hat geschrieben:@patmaster Pech.

Es gibt keine Python-Bibliothek, die DOC verarbeiten kann. Es gibt überhaupt nur eine einzige Bibliothek, die DOC ohne Office lesen und schreiben kann, die Java-Bibliothek Apache POI. Die ließe sich aus Python heraus mit Py4J oder Jython verwenden, wobei letzteres eine alternative Python-Implementierung ist, in welcher Du wiederum auf Wx verzichten musst. Wenn Du keine Eile hast, und von Deinem Arbeitgeber gut bezahlt wirst, kannst Du auch versuchen, POI nach Python zu portieren. Die Bibliothek ist frei, gut dokumentiert, und hat irgendwo auch eine recht gute Dokumentation des DOC-Formats.
Keine Eile und gut bezahlt...der war gut :D

Hmm....evtl. such ich mir ein tool, das ich dann einfach per Systemcall öffne.

Gute Idee oder Pfusch ?

Re: MSWord - oh joy -.-

Verfasst: Donnerstag 11. Oktober 2012, 10:40
von lunar
@patmaster Wenn es denn ein solches Tool gibt, dass ohne Microsoft Office oder LibreOffice funktioniert…