Seite 1 von 1

Python pdf auslesen

Verfasst: Mittwoch 15. Juli 2015, 14:16
von Manni1990
Hallo!

Ich möchte mir gern selbst eine Art Wörterbuch bauen. Dieses Wörterbuch soll mit Wörtern aus Texten automatisch gefüllt werden (die Übersetzungen würde ich dann selbst einfügen mit der Zeit). Mir geht es jetzt darum, dass ich gern aus eBooks (im pdf-Format) alle Wörter auslesen möchte, um diese automatisch einer Liste hinzuzufügen (entsprechend Dopplungen vermeiden und so weiter).

Ist das überhaupt möglich? Ich weiß, dass pdfs eigentlich nicht darauf ausgelegt sind, dass man mit Ihnen arbeitet, aber ich möchte ja nichts an der pdf selbst ändern. Wenn es möglich ist, welches Modul ist dann dafür an besten geeignet? Also ich brauche echt keine langen Erklärungen, wie welche Befehle funktionieren. Mir reicht die Info, welches Modul ich mir dazu ansehen muss (falls es etwas passendes gibt).


Vielen Dank schon mal :)

Re: Python pdf auslesen

Verfasst: Mittwoch 15. Juli 2015, 15:01
von BlackJack
@Manni1990: Für Python gäb's da das `PDF`-Modul oder `pdfminer`.

Re: Python pdf auslesen

Verfasst: Mittwoch 15. Juli 2015, 15:04
von Kebap
Vielleicht beginnst du erstmal mit HTML-Texten, um deine Logik aufzubauen. PDF in Text umwandeln geht natürlich auch.

Re: Python pdf auslesen

Verfasst: Donnerstag 16. Juli 2015, 13:27
von pixewakb
Ich weiß nicht, woran du arbeitest, aber das klingt nach einer Standardaufgabe und wenn es tatsächlich um ein Wörterbuch und nicht um die Indexierung der PDFs geht, dann würde ich eher auf Webquellen zugreifen (HTML-Seiten) und mir einen Crawler programmieren, was mit dem request-Modul nicht so schwierig ist.

Re: Python pdf auslesen

Verfasst: Donnerstag 16. Juli 2015, 23:16
von Manni1990
Entschuldigt die späte Reaktion. Leider hatte es mir mein python zerschossen. Ich habe es jetzt neu eingerichtet und pdfminer3k installiert, um zu schauen, ob ich damit klar komme.

Dass ich mir die Logik erst erarbeiten muss, denke ich auch. Aber ich arbeite da gern quasi am offenen Herzen :)

Und das Wörterbuch soll tatäsächlich für die Texte, die ich lese, sein. Das dann irgendwann auch auf Homepages zu erweitern, ist anzustreben.

Re: Python pdf auslesen

Verfasst: Donnerstag 16. Juli 2015, 23:51
von BlackJack
@Manni1990: Dann wäre pixewakb's Idee mit der Indexierung ja eventuell sogar nützlich, also nicht nur die Wörter und deren Übersetzung zu speichern sondern auch die Fundstelle, damit man das Wort dann auch nochmal im Kontext nachlesen kann.

Re: Python pdf auslesen

Verfasst: Montag 3. August 2015, 23:45
von Manni1990
@BlackJack:
Da ich die Gegenstücke manuell erweitere, brauche ich eine Indexierung (glaube ich) nicht. Ich will das Wörterbuch dann eh als Datenbank aufbauen und mit Verknüpfungen versehen, abhängig vom Kontext. Das passiert dann spätestens beim direkten Nutzen des Wörterbuches, also wenn der Kontext dann grad wichtig ist. Wobei ich die Indexierung wohl als Listenelement der Datenbank hinzufügen kann. Wieder eine Spielerei (sehe ich aber mehr als nice-to-know denn als wichtig an).

Ich habe jetzt aber erstmal Prüfungsphase. Danach kann ich dann mich wirklich mal in pdfminer3k einarbeiten, sowie mir Datenbanken und Indexierung in python ansehen. Wird wohl aber etwas dauern :)

Re: Python pdf auslesen

Verfasst: Montag 3. August 2015, 23:48
von pixewakb
Viel Erfolg für die Prüfungen!