Text in Dokumenten suchen re oder str-Methoden
Verfasst: Freitag 18. Juni 2010, 07:20
Hallo Board!
Mein Problem: Meine Anwendung holt den Text aus PDF-Dateien in einen String und sollte diesen String auf Vorkommnisse bestimmter Begriffe prüfen. Wenn ein solcher Begriff im String vorkommt wird dies geloggt.
Ich habe jetzt eine funktionierende Lösung mit Regular Expressions (modul re) und eine mit der eingebauten Methode str.find().
Da bei diesen System u. U. tausende PDFs in kurzer Zeit untersucht werden müssen, hätte ich gerne die effizienteste Lösung.
Persönlich gefällt mir die str.find() Variante am Besten, stoße ich mit der irgendwann an Grenzen?
Besteht die Möglichkeit nach mehreren Suchbegriffen in einem Durchlauf zu suchen?
Momentan wiederhole ich den Suchvorgang für jeden Suchberiff auf den ganzen Text/String. Das kommt mir auch nicht besonders effizient vor, hab aber noch keine Lösung.
Vielen Dank im Voraus.
Mein Problem: Meine Anwendung holt den Text aus PDF-Dateien in einen String und sollte diesen String auf Vorkommnisse bestimmter Begriffe prüfen. Wenn ein solcher Begriff im String vorkommt wird dies geloggt.
Ich habe jetzt eine funktionierende Lösung mit Regular Expressions (modul re) und eine mit der eingebauten Methode str.find().
Da bei diesen System u. U. tausende PDFs in kurzer Zeit untersucht werden müssen, hätte ich gerne die effizienteste Lösung.
Persönlich gefällt mir die str.find() Variante am Besten, stoße ich mit der irgendwann an Grenzen?
Besteht die Möglichkeit nach mehreren Suchbegriffen in einem Durchlauf zu suchen?
Momentan wiederhole ich den Suchvorgang für jeden Suchberiff auf den ganzen Text/String. Das kommt mir auch nicht besonders effizient vor, hab aber noch keine Lösung.
Vielen Dank im Voraus.