Seite 2 von 2
Re: Brief einlesen
Verfasst: Dienstag 20. Oktober 2015, 08:14
von sparrow
@meego: Ich finde das Ergebnis ziemlich gut dafür dass du einen Text umwandeln möchtest, bei dem quasi gar kein Abstand zwischen den Zeilen existiert. Da werden dann Serifen und Tremata gerne der Zeile darüber oder darunter zugeordnet.
Re: Brief einlesen
Verfasst: Dienstag 20. Oktober 2015, 08:33
von meego
Ist es möglich OCR zu verwenden, wenn das Bild von einem Foto und nicht von einem Scan stammt? (Wenn man also noch Schreibtisch, Schatten etc. drauf hat.)
Deutsch war selektiert. (->
gImageReader)
Re: Brief einlesen
Verfasst: Dienstag 20. Oktober 2015, 08:43
von sparrow
So pauschale Aussagen sind möglich. Probier es einfach aus.
Für mein Projekt wurde ein stinknormale Scanner mit Einzug verwendet. Das klappte überraschend gut.
Ein paar Probleme gab es bei Belegen, die mi einem Nadeldrucker gedruckt waren, bei denen ein paar Nadeln defekt waren. Ansonsten war die Fehlerquote absolut im Toleranzbereich.
Re: Brief einlesen
Verfasst: Dienstag 20. Oktober 2015, 09:35
von meego
Ein Scanner ist leider unmöglich, es müssten bei mir Fotos sein.
Was käme denn in Frage um bei den Fotos in einem ersten Durchgang die Quadrate der Rechnungen zu erkennen, automatisch Sättigung, u. Belichtung zu verstellen, etc? Vielleicht SimpleCV?
Re: Brief einlesen
Verfasst: Dienstag 20. Oktober 2015, 09:38
von sparrow
Du solltest versuchen das Problem so früh wie möglich zu lösen, nicht hinterher in Software.
Man kann zwar in Software aufhübschen aber keine Informationen herstellen, die vorher nicht da waren.
Ich habe das zum Beispiel mal mit Büchern begleitet. Da wurde dann eine gute Kamera auf ein Stativ über das Buch gehängt. Die Herausforderung war, die "Biegung" bei der aufgeschlagenen Seite nicht aufkommen zu lassen. Die ersten Versuche gingen hier auch dahin, das Problem in der Software zu lösen (Buch ausschneiden, Biegung der Seite Buchrücken->Rand rausrechnen), das war aber viel fehleranfälliger, als die Seite auf einer vorbereiteten Oberfläche zu fixieren.
Fang also besser nicht an irgendwelche Dokumente mit deinem Handy zu fotografieren. Da ist Frust vorprogrammiert.
Re: Brief einlesen
Verfasst: Dienstag 20. Oktober 2015, 09:53
von meego
Schon klar. Nur ist das in diesem Fall aber - wie gesagt - leider unmöglich. Biegung gibt es bei Smartphonecams auch.
Unmöglich ist es allerdings nicht. Es gibt einen (kommerziellen) Anbieter.
Re: Brief einlesen
Verfasst: Mittwoch 21. Oktober 2015, 09:12
von meego
Gibt es jemanden, der das auf Server Seite (Server Side OCR) anbieten kann?:
Link
Testet es selber einmal aus, die Resultate sind viel besser, als was Tesseract produziert (offenbar hält Google - wie andernorts gelesen - auch viele Neuentwicklungen zu Tesseract unter Verschluss).
Die Microsoft Ingenieure haben hier wirklich eindrückliche Arbeit geleistet. So viel ich als Noob hier herauslese, gibt es das ganze aber nicht auf Server Seite:
Link
Gruss
Re: Brief einlesen
Verfasst: Mittwoch 21. Oktober 2015, 09:29
von sparrow
Ich habe bisher immer gedacht, dass A9T9 auf Tesseract aufbaut. Die scheinen aber teilweise auch die Microsoft OCR-Software zu benutzen.
Die Tests, die ich damit in der Vergangenheit gemacht habe, waren aber nicht überzeugender als Tesseract. Wenn man da dein Beispiel hier aus dem Thread verwendet, ist das Ergebnis sogar noch schlechter.
Wie gesagt, ich wiederhole mich da gerne, OCR ist dann gut, wenn die Vorlage gut ist.
Re: Brief einlesen
Verfasst: Mittwoch 21. Oktober 2015, 10:29
von meego
Code: Alles auswählen
NUTZEN SIE DIE EDECARO
PUNKTE ERWERBEN
IHR EINKAUF RARE ONS
I BONUSPUNKTE WERT GEWESEN !
Ist doch akkurater. Es zeigt halt offenbar nur die Worte nicht an, die es wirklich kennt.
Versuch's mal mit einem Bild von einem Ticket wo das Ticket dann nicht so schön auf dem Tisch liegt oder noch andere Gegenstände drauf sind.
Vergleich
Betr. Microsoft:
Link
Betreffend Vorbereitung habe ich das hier gefunden:
Link - allerdings: $$$$.
Re: Brief einlesen
Verfasst: Mittwoch 21. Oktober 2015, 10:36
von sparrow
Code: Alles auswählen
NUTZEN SIE DIE EDECARO
PUNKTE ERWERBEN
IHR EINKAUF RARE ONS
I BONUSPUNKTE WERT GEWESEN !
gegen
Code: Alles auswählen
NUTZEN SIE D_I_E__EDECARD
PUNKTE SAMMELN+PRAMLEN ERWERBEN
IHR EINKAUF IA’ARE UNS
1 BÜNUSPUNKTE WERT GEWESEN !
Da findest du das Erste akkurater? Ernsthaft?
Re: Brief einlesen
Verfasst: Mittwoch 21. Oktober 2015, 10:59
von meego
Wenn man mit dem Text etwas anstellen will schon. Wie soll man denn die Unterstriche vernünftig entfernen und da Worte herauskristallisieren?
Re: Brief einlesen
Verfasst: Mittwoch 21. Oktober 2015, 11:10
von meego
Hier noch einmal ein Beispiel:
Tesseract:
Code: Alles auswählen
ihund VVT ‚v5 ’
rgalm H+R
6.20€
g: Inkl. ges. List,
gc? 102255
001368
Microsoft OCR:
Code: Alles auswählen
****** Result for Image/Page 1 ******
Verkehrsverbund VVT IVB
Mutterbergalm H+R
Zone Innsbruck
nach zone Sulzenau
OIP 09Z
6.20€
270066
004000
Inkl. ges. Ust
102256
02.01.12 09:28
00136s
Das sind Welten.