Datum (unbekanntes Format) aus einem Text heraussuchen
Verfasst: Freitag 1. Dezember 2017, 22:44
Hallo,
Danke, dass ich im Forum teilnehmen darf.
Das habe ich vor:
Mein Python Skript soll einen Ordner durchsuchen, pdf Dateien mit OCR "erkennen" und danach die PDF Dateien nach einigen bekannten, öfter vorkommenden Begriffen umbenennen.
Was schon läuft:
Das ganze Thema OCR und Text erkennen läuft schon. Auch von wem der Brief kommt wird erkannt und die am häufigsten vorkommenden Betreffs ebenfalls.
An folgendem Problem scheitere ich nun schon eine Woche.
Ich würde gerne das erste im Text vorkommende Datum erkennen und ausgeben. Da es in manchen Briefen als reine Zahlen, oder mit ausgeschriebenem Monatsnamen oder nur zweistelligem Jahr angegeben ist, komme ich mit meinen bescheidenen Python Kenntnissen an ein Limit.
Mein letzter Gedanke war, wie mit Bruteforce auf die Abfrage zu gehen. Also Tag von 1-31 Monat von 1 bis 12 oder Januar bis Dezember und das mit 3 Jahren (2016-2018 bzw 16-18) durchlaufen zu lassen.
Da das aber eine sehr "unschöne Weise wäre" und ich gesehen habe, dass die Angaben mit ausgeschriebenem Monat dann keine Punkte haben, wird die Anzahl der Varianten etwas hoch.
Daher mein Hilferuf.
Gibt es ein/mehrere Module die sowas vielleicht schon können?
Hat das jemand schon mal realisiert?
Die Erkennungsquote muss nicht so hoch sein.
Danke für eure Hilfe!
Danke, dass ich im Forum teilnehmen darf.
Das habe ich vor:
Mein Python Skript soll einen Ordner durchsuchen, pdf Dateien mit OCR "erkennen" und danach die PDF Dateien nach einigen bekannten, öfter vorkommenden Begriffen umbenennen.
Was schon läuft:
Das ganze Thema OCR und Text erkennen läuft schon. Auch von wem der Brief kommt wird erkannt und die am häufigsten vorkommenden Betreffs ebenfalls.
An folgendem Problem scheitere ich nun schon eine Woche.
Ich würde gerne das erste im Text vorkommende Datum erkennen und ausgeben. Da es in manchen Briefen als reine Zahlen, oder mit ausgeschriebenem Monatsnamen oder nur zweistelligem Jahr angegeben ist, komme ich mit meinen bescheidenen Python Kenntnissen an ein Limit.
Mein letzter Gedanke war, wie mit Bruteforce auf die Abfrage zu gehen. Also Tag von 1-31 Monat von 1 bis 12 oder Januar bis Dezember und das mit 3 Jahren (2016-2018 bzw 16-18) durchlaufen zu lassen.
Da das aber eine sehr "unschöne Weise wäre" und ich gesehen habe, dass die Angaben mit ausgeschriebenem Monat dann keine Punkte haben, wird die Anzahl der Varianten etwas hoch.
Daher mein Hilferuf.
Gibt es ein/mehrere Module die sowas vielleicht schon können?
Hat das jemand schon mal realisiert?
Die Erkennungsquote muss nicht so hoch sein.
Danke für eure Hilfe!