Das deutsche Python-Forum

Hallo!

Ich möchte mir gern selbst eine Art Wörterbuch bauen. Dieses Wörterbuch soll mit Wörtern aus Texten automatisch gefüllt werden (die Übersetzungen würde ich dann selbst einfügen mit der Zeit). Mir geht es jetzt darum, dass ich gern aus eBooks (im pdf-Format) alle Wörter auslesen möchte, um diese automatisch einer Liste hinzuzufügen (entsprechend Dopplungen vermeiden und so weiter).

Ist das überhaupt möglich? Ich weiß, dass pdfs eigentlich nicht darauf ausgelegt sind, dass man mit Ihnen arbeitet, aber ich möchte ja nichts an der pdf selbst ändern. Wenn es möglich ist, welches Modul ist dann dafür an besten geeignet? Also ich brauche echt keine langen Erklärungen, wie welche Befehle funktionieren. Mir reicht die Info, welches Modul ich mir dazu ansehen muss (falls es etwas passendes gibt).

Vielen Dank schon mal

@Manni1990: Für Python gäb's da das `PDF`-Modul oder `pdfminer`.

Vielleicht beginnst du erstmal mit HTML-Texten, um deine Logik aufzubauen. PDF in Text umwandeln geht natürlich auch.

Ich weiß nicht, woran du arbeitest, aber das klingt nach einer Standardaufgabe und wenn es tatsächlich um ein Wörterbuch und nicht um die Indexierung der PDFs geht, dann würde ich eher auf Webquellen zugreifen (HTML-Seiten) und mir einen Crawler programmieren, was mit dem request-Modul nicht so schwierig ist.

Entschuldigt die späte Reaktion. Leider hatte es mir mein python zerschossen. Ich habe es jetzt neu eingerichtet und pdfminer3k installiert, um zu schauen, ob ich damit klar komme.

Dass ich mir die Logik erst erarbeiten muss, denke ich auch. Aber ich arbeite da gern quasi am offenen Herzen

Und das Wörterbuch soll tatäsächlich für die Texte, die ich lese, sein. Das dann irgendwann auch auf Homepages zu erweitern, ist anzustreben.

@Manni1990: Dann wäre pixewakb's Idee mit der Indexierung ja eventuell sogar nützlich, also nicht nur die Wörter und deren Übersetzung zu speichern sondern auch die Fundstelle, damit man das Wort dann auch nochmal im Kontext nachlesen kann.

@BlackJack:
Da ich die Gegenstücke manuell erweitere, brauche ich eine Indexierung (glaube ich) nicht. Ich will das Wörterbuch dann eh als Datenbank aufbauen und mit Verknüpfungen versehen, abhängig vom Kontext. Das passiert dann spätestens beim direkten Nutzen des Wörterbuches, also wenn der Kontext dann grad wichtig ist. Wobei ich die Indexierung wohl als Listenelement der Datenbank hinzufügen kann. Wieder eine Spielerei (sehe ich aber mehr als nice-to-know denn als wichtig an).

Ich habe jetzt aber erstmal Prüfungsphase. Danach kann ich dann mich wirklich mal in pdfminer3k einarbeiten, sowie mir Datenbanken und Indexierung in python ansehen. Wird wohl aber etwas dauern

Viel Erfolg für die Prüfungen!

Das deutsche Python-Forum

Python pdf auslesen

Python pdf auslesen

Re: Python pdf auslesen

Re: Python pdf auslesen

Re: Python pdf auslesen

Re: Python pdf auslesen

Re: Python pdf auslesen

Re: Python pdf auslesen

Re: Python pdf auslesen