Python pdf auslesen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
Manni1990
User
Beiträge: 7
Registriert: Samstag 20. Juni 2015, 16:57

Hallo!

Ich möchte mir gern selbst eine Art Wörterbuch bauen. Dieses Wörterbuch soll mit Wörtern aus Texten automatisch gefüllt werden (die Übersetzungen würde ich dann selbst einfügen mit der Zeit). Mir geht es jetzt darum, dass ich gern aus eBooks (im pdf-Format) alle Wörter auslesen möchte, um diese automatisch einer Liste hinzuzufügen (entsprechend Dopplungen vermeiden und so weiter).

Ist das überhaupt möglich? Ich weiß, dass pdfs eigentlich nicht darauf ausgelegt sind, dass man mit Ihnen arbeitet, aber ich möchte ja nichts an der pdf selbst ändern. Wenn es möglich ist, welches Modul ist dann dafür an besten geeignet? Also ich brauche echt keine langen Erklärungen, wie welche Befehle funktionieren. Mir reicht die Info, welches Modul ich mir dazu ansehen muss (falls es etwas passendes gibt).


Vielen Dank schon mal :)
BlackJack

@Manni1990: Für Python gäb's da das `PDF`-Modul oder `pdfminer`.
Benutzeravatar
Kebap
User
Beiträge: 786
Registriert: Dienstag 15. November 2011, 14:20
Wohnort: Dortmund

Vielleicht beginnst du erstmal mit HTML-Texten, um deine Logik aufzubauen. PDF in Text umwandeln geht natürlich auch.
MorgenGrauen: 1 Welt, 8 Rassen, 13 Gilden, >250 Abenteuer, >5000 Waffen & Rüstungen,
>7000 NPC, >16000 Räume, >200 freiwillige Programmierer, nur Text, viel Spaß, seit 1992.
Benutzeravatar
pixewakb
User
Beiträge: 1413
Registriert: Sonntag 24. April 2011, 19:43

Ich weiß nicht, woran du arbeitest, aber das klingt nach einer Standardaufgabe und wenn es tatsächlich um ein Wörterbuch und nicht um die Indexierung der PDFs geht, dann würde ich eher auf Webquellen zugreifen (HTML-Seiten) und mir einen Crawler programmieren, was mit dem request-Modul nicht so schwierig ist.
Manni1990
User
Beiträge: 7
Registriert: Samstag 20. Juni 2015, 16:57

Entschuldigt die späte Reaktion. Leider hatte es mir mein python zerschossen. Ich habe es jetzt neu eingerichtet und pdfminer3k installiert, um zu schauen, ob ich damit klar komme.

Dass ich mir die Logik erst erarbeiten muss, denke ich auch. Aber ich arbeite da gern quasi am offenen Herzen :)

Und das Wörterbuch soll tatäsächlich für die Texte, die ich lese, sein. Das dann irgendwann auch auf Homepages zu erweitern, ist anzustreben.
BlackJack

@Manni1990: Dann wäre pixewakb's Idee mit der Indexierung ja eventuell sogar nützlich, also nicht nur die Wörter und deren Übersetzung zu speichern sondern auch die Fundstelle, damit man das Wort dann auch nochmal im Kontext nachlesen kann.
Manni1990
User
Beiträge: 7
Registriert: Samstag 20. Juni 2015, 16:57

@BlackJack:
Da ich die Gegenstücke manuell erweitere, brauche ich eine Indexierung (glaube ich) nicht. Ich will das Wörterbuch dann eh als Datenbank aufbauen und mit Verknüpfungen versehen, abhängig vom Kontext. Das passiert dann spätestens beim direkten Nutzen des Wörterbuches, also wenn der Kontext dann grad wichtig ist. Wobei ich die Indexierung wohl als Listenelement der Datenbank hinzufügen kann. Wieder eine Spielerei (sehe ich aber mehr als nice-to-know denn als wichtig an).

Ich habe jetzt aber erstmal Prüfungsphase. Danach kann ich dann mich wirklich mal in pdfminer3k einarbeiten, sowie mir Datenbanken und Indexierung in python ansehen. Wird wohl aber etwas dauern :)
Antworten