Nach mehreren Wörtern gleichzeitig in PDF Dokument suchen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
medinoob1999
User
Beiträge: 2
Registriert: Sonntag 21. November 2021, 18:21

Guten Tag zusammen,

ich bin auf der Suche nach der Lösung für folgende Frage:
Ich würde gerne in einem eBook, was ich als PDF habe nach mehreren Wörtern suchen.
Hierbei fände ich es super, wenn folgende Punkte möglich wären:

1. Das PDF Dokument wird nach mehreren Wörtern (am besten mehreren hundert Wörtern einzeln durchsucht).
2. Sofern sich Übereinstimmungen in dem Dokument mit den gesuchten Wörtern finden werden diese markiert.
3. Die Wörter werden einzeln betrachtet, d.h. die Wörter müssen nicht in der Reihenfolge in dem Dokument vorkommen um markiert zu werden.
4. Wenn ein Wort mehrfach in dem Dokument vorkommt werden alle vorkommenden Wörter markiert.
5. Wörter werden auch markiert wenn im Singular nach ihnen gesucht wird bzw wenn Endungen fehlen (z.B. Suche nach "Ding" -> es wird sowohl das Wort "Ding" als auch das Wort "Dinge" im Dokument markiert).
6. Die Wörter bleiben dauerhaft markiert.

Ich habe bereits versucht dieses Problem anzugehen:
Ich habe in Vorschau (Mac) nach Wörtern in dem Dokument gesucht.
Hierbei werden aber die Prämissen 1. und 3. nicht erfüllt, was das Problem aufwirft, dass effektiv nur nach einem Wort gleichzeitig gesucht werden kann.

Nun wollte ich mich erkundigen, ob jemand hierfür ein Programm kennt, dass die oben genannten Prämissen erfüllen kann bzw. mir evtl Tipps geben könnte, wie ich dies selbst programmieren könnte.

Ich bedanke mich bereits jetzt herzlichst im Voraus.

LG
Benutzeravatar
noisefloor
User
Beiträge: 3856
Registriert: Mittwoch 17. Oktober 2007, 21:40
Wohnort: WW
Kontaktdaten:

Hallo,

du willst also das PDF Dokument nicht nur durchsuchen, sondern direkt auch editieren (=Wörter hervorheben, was effektiv ein Edit ist) und dann das editierte Dokument als neues PDF speichern?

Gruß, noisefloor
medinoob1999
User
Beiträge: 2
Registriert: Sonntag 21. November 2021, 18:21

Genau, im Grunde will ich es editieren, also die Markierungen sollen persistieren.
Benutzeravatar
noisefloor
User
Beiträge: 3856
Registriert: Mittwoch 17. Oktober 2007, 21:40
Wohnort: WW
Kontaktdaten:

Hallo,

ok. Was ich mal gemacht habe ist, Text aus einem PDF extrahieren, durch einen Textprozessor laufen lassen (NLTK) und dann nach Worten suchen. Das ist mit relativ wenig Code gemacht.
Der Textprozessor hat auch einen "Stemmer", der das mit Einzahl / Mehrzahl von Worten kann.

Nur: das PDF ist dann "weg", im Sinne von dass der Textprozessor den Text in Tokens zerlegt.

Ob es das gibt was du gerne hättest - keine Ahnung. Das Editieren von Text in einem PDF ist ja schon nicht so ganz ohne, weil der Text nicht vorlaufend vorliegen muss. PDFs sind ja anders aufgebaut.

Gruß, noisefloor
Antworten