MSWord - oh joy -.-

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
patmaster
User
Beiträge: 106
Registriert: Donnerstag 3. Februar 2011, 17:21

Hi,

Ich habe hier ein kleines Tool mit GUI (wxPython) das word Dokumente als Input bekommt und diese dann auf bestimmte Sachen, wie Formatvorlagen usw. prüft. Nun haben die user ständig Probleme mit Word bzw mit der COM-Schnittstelle die total random sind und auch nur bei manchen, manchmal auftreten.

Nun habe ich mir den HTML output von Word angesehen und glaube das ich den auch locker für die Überprüfungen verwenden kann. Ich muss also jetzt automatisiert, ohne die COM-Schnittstelle bzw pywin32 worddokumente nach html konvertieren.

Es handelt sich um Word 2007 und 2010.

Vorschläge ?
lunar

@patmaster DOC- oder DOCX-Dokumente?
patmaster
User
Beiträge: 106
Registriert: Donnerstag 3. Februar 2011, 17:21

lunar hat geschrieben:@patmaster DOC- oder DOCX-Dokumente?
Es kommt tatsächlich beides vor.
Hab gesehen das es für docx ne lib für python gibt, aber leider mischen die das hier bunt durch.
lunar

@patmaster Pech.

Es gibt keine Python-Bibliothek, die DOC verarbeiten kann. Es gibt überhaupt nur eine einzige Bibliothek, die DOC ohne Office lesen und schreiben kann, die Java-Bibliothek Apache POI. Die ließe sich aus Python heraus mit Py4J oder Jython verwenden, wobei letzteres eine alternative Python-Implementierung ist, in welcher Du wiederum auf Wx verzichten musst. Wenn Du keine Eile hast, und von Deinem Arbeitgeber gut bezahlt wirst, kannst Du auch versuchen, POI nach Python zu portieren. Die Bibliothek ist frei, gut dokumentiert, und hat irgendwo auch eine recht gute Dokumentation des DOC-Formats.
patmaster
User
Beiträge: 106
Registriert: Donnerstag 3. Februar 2011, 17:21

lunar hat geschrieben:@patmaster Pech.

Es gibt keine Python-Bibliothek, die DOC verarbeiten kann. Es gibt überhaupt nur eine einzige Bibliothek, die DOC ohne Office lesen und schreiben kann, die Java-Bibliothek Apache POI. Die ließe sich aus Python heraus mit Py4J oder Jython verwenden, wobei letzteres eine alternative Python-Implementierung ist, in welcher Du wiederum auf Wx verzichten musst. Wenn Du keine Eile hast, und von Deinem Arbeitgeber gut bezahlt wirst, kannst Du auch versuchen, POI nach Python zu portieren. Die Bibliothek ist frei, gut dokumentiert, und hat irgendwo auch eine recht gute Dokumentation des DOC-Formats.
Keine Eile und gut bezahlt...der war gut :D

Hmm....evtl. such ich mir ein tool, das ich dann einfach per Systemcall öffne.

Gute Idee oder Pfusch ?
lunar

@patmaster Wenn es denn ein solches Tool gibt, dass ohne Microsoft Office oder LibreOffice funktioniert…
Antworten