Python pdf auslesen

Manni1990 · Mittwoch 15. Juli 2015, 14:16

Hallo!

Ich möchte mir gern selbst eine Art Wörterbuch bauen. Dieses Wörterbuch soll mit Wörtern aus Texten automatisch gefüllt werden (die Übersetzungen würde ich dann selbst einfügen mit der Zeit). Mir geht es jetzt darum, dass ich gern aus eBooks (im pdf-Format) alle Wörter auslesen möchte, um diese automatisch einer Liste hinzuzufügen (entsprechend Dopplungen vermeiden und so weiter).

Ist das überhaupt möglich? Ich weiß, dass pdfs eigentlich nicht darauf ausgelegt sind, dass man mit Ihnen arbeitet, aber ich möchte ja nichts an der pdf selbst ändern. Wenn es möglich ist, welches Modul ist dann dafür an besten geeignet? Also ich brauche echt keine langen Erklärungen, wie welche Befehle funktionieren. Mir reicht die Info, welches Modul ich mir dazu ansehen muss (falls es etwas passendes gibt).

Vielen Dank schon mal

BlackJack · Mittwoch 15. Juli 2015, 15:01

@Manni1990: Für Python gäb's da das `PDF`-Modul oder `pdfminer`.

Kebap · Mittwoch 15. Juli 2015, 15:04

Vielleicht beginnst du erstmal mit HTML-Texten, um deine Logik aufzubauen. PDF in Text umwandeln geht natürlich auch.

pixewakb · Donnerstag 16. Juli 2015, 13:27

Ich weiß nicht, woran du arbeitest, aber das klingt nach einer Standardaufgabe und wenn es tatsächlich um ein Wörterbuch und nicht um die Indexierung der PDFs geht, dann würde ich eher auf Webquellen zugreifen (HTML-Seiten) und mir einen Crawler programmieren, was mit dem request-Modul nicht so schwierig ist.

Manni1990 · Donnerstag 16. Juli 2015, 23:16

Entschuldigt die späte Reaktion. Leider hatte es mir mein python zerschossen. Ich habe es jetzt neu eingerichtet und pdfminer3k installiert, um zu schauen, ob ich damit klar komme.

Dass ich mir die Logik erst erarbeiten muss, denke ich auch. Aber ich arbeite da gern quasi am offenen Herzen

Und das Wörterbuch soll tatäsächlich für die Texte, die ich lese, sein. Das dann irgendwann auch auf Homepages zu erweitern, ist anzustreben.

BlackJack · Donnerstag 16. Juli 2015, 23:51

@Manni1990: Dann wäre pixewakb's Idee mit der Indexierung ja eventuell sogar nützlich, also nicht nur die Wörter und deren Übersetzung zu speichern sondern auch die Fundstelle, damit man das Wort dann auch nochmal im Kontext nachlesen kann.

Manni1990 · Montag 3. August 2015, 23:45

@BlackJack:
Da ich die Gegenstücke manuell erweitere, brauche ich eine Indexierung (glaube ich) nicht. Ich will das Wörterbuch dann eh als Datenbank aufbauen und mit Verknüpfungen versehen, abhängig vom Kontext. Das passiert dann spätestens beim direkten Nutzen des Wörterbuches, also wenn der Kontext dann grad wichtig ist. Wobei ich die Indexierung wohl als Listenelement der Datenbank hinzufügen kann. Wieder eine Spielerei (sehe ich aber mehr als nice-to-know denn als wichtig an).

Ich habe jetzt aber erstmal Prüfungsphase. Danach kann ich dann mich wirklich mal in pdfminer3k einarbeiten, sowie mir Datenbanken und Indexierung in python ansehen. Wird wohl aber etwas dauern

pixewakb · Montag 3. August 2015, 23:48

Viel Erfolg für die Prüfungen!