Brief einlesen

meego · Montag 19. Oktober 2015, 19:04

Wirklich gut scheint das Ganze aber nicht zu funktionieren. Ich habe jetzt einmal tesseract mit einem Fahrschein ausprobiert. Ist das wirklich der Stand der Technik?

pixewakb · Montag 19. Oktober 2015, 21:56

Für Testzwecke würde ich erst einmal ein einfaches Beispiel nutzen und gucken, was tesseract dann leistet. OCR ist nicht, als wenn du es selbst abtippen würdest. Zumindest ist das meine bisherige Erfahrung. In manchen Fällen ist OCR aber trotzdem sehr hilfreich.

meego · Montag 19. Oktober 2015, 22:13

Ich fand das war ein einfaches Beispiel.

Funktioniert's bei geschriebenem Text (Büchern) denn besser als bei Tickets, Bons, etc? Kann man das trainieren?

Bild

=

Code: Alles auswählen

NUTZEN SIE D_I_E__EDECARD
PUNKTE SAMMELN+PRAMLEN ERWERBEN
IHR EINKAUF IA’ARE UNS

1 BÜNUSPUNKTE WERT GEWESEN !

pixewakb · Dienstag 20. Oktober 2015, 06:47

Ich konnte bislang noch nicht die Sprache als Parameter übergeben. Wenn das klappt, könnte das das Ergebnis etwas verbessern. Ich denke aber fast, dass dein Ergebnis schon ziemlich gut ist.

Sirius3 · Dienstag 20. Oktober 2015, 08:06

@meego: dein Scan ist sehr schlecht. Die Rückseite druckt durch und die Schrift ist löchrig. OCR funktioniert gut bei guten Vorlagen.

sparrow · Dienstag 20. Oktober 2015, 08:14

@meego: Ich finde das Ergebnis ziemlich gut dafür dass du einen Text umwandeln möchtest, bei dem quasi gar kein Abstand zwischen den Zeilen existiert. Da werden dann Serifen und Tremata gerne der Zeile darüber oder darunter zugeordnet.

meego · Dienstag 20. Oktober 2015, 08:33

Ist es möglich OCR zu verwenden, wenn das Bild von einem Foto und nicht von einem Scan stammt? (Wenn man also noch Schreibtisch, Schatten etc. drauf hat.)

Deutsch war selektiert. (-> gImageReader)

sparrow · Dienstag 20. Oktober 2015, 08:43

So pauschale Aussagen sind möglich. Probier es einfach aus.

Für mein Projekt wurde ein stinknormale Scanner mit Einzug verwendet. Das klappte überraschend gut.
Ein paar Probleme gab es bei Belegen, die mi einem Nadeldrucker gedruckt waren, bei denen ein paar Nadeln defekt waren. Ansonsten war die Fehlerquote absolut im Toleranzbereich.

meego · Dienstag 20. Oktober 2015, 09:35

Ein Scanner ist leider unmöglich, es müssten bei mir Fotos sein.

Was käme denn in Frage um bei den Fotos in einem ersten Durchgang die Quadrate der Rechnungen zu erkennen, automatisch Sättigung, u. Belichtung zu verstellen, etc? Vielleicht SimpleCV?

sparrow · Dienstag 20. Oktober 2015, 09:38

Du solltest versuchen das Problem so früh wie möglich zu lösen, nicht hinterher in Software.
Man kann zwar in Software aufhübschen aber keine Informationen herstellen, die vorher nicht da waren.

Ich habe das zum Beispiel mal mit Büchern begleitet. Da wurde dann eine gute Kamera auf ein Stativ über das Buch gehängt. Die Herausforderung war, die "Biegung" bei der aufgeschlagenen Seite nicht aufkommen zu lassen. Die ersten Versuche gingen hier auch dahin, das Problem in der Software zu lösen (Buch ausschneiden, Biegung der Seite Buchrücken->Rand rausrechnen), das war aber viel fehleranfälliger, als die Seite auf einer vorbereiteten Oberfläche zu fixieren.

Fang also besser nicht an irgendwelche Dokumente mit deinem Handy zu fotografieren. Da ist Frust vorprogrammiert.

meego · Dienstag 20. Oktober 2015, 09:53

Schon klar. Nur ist das in diesem Fall aber - wie gesagt - leider unmöglich. Biegung gibt es bei Smartphonecams auch.
Unmöglich ist es allerdings nicht. Es gibt einen (kommerziellen) Anbieter.

meego · Mittwoch 21. Oktober 2015, 09:12

Gibt es jemanden, der das auf Server Seite (Server Side OCR) anbieten kann?:
Link

Testet es selber einmal aus, die Resultate sind viel besser, als was Tesseract produziert (offenbar hält Google - wie andernorts gelesen - auch viele Neuentwicklungen zu Tesseract unter Verschluss).
Die Microsoft Ingenieure haben hier wirklich eindrückliche Arbeit geleistet. So viel ich als Noob hier herauslese, gibt es das ganze aber nicht auf Server Seite: Link

Gruss

sparrow · Mittwoch 21. Oktober 2015, 09:29

Ich habe bisher immer gedacht, dass A9T9 auf Tesseract aufbaut. Die scheinen aber teilweise auch die Microsoft OCR-Software zu benutzen.
Die Tests, die ich damit in der Vergangenheit gemacht habe, waren aber nicht überzeugender als Tesseract. Wenn man da dein Beispiel hier aus dem Thread verwendet, ist das Ergebnis sogar noch schlechter.

Wie gesagt, ich wiederhole mich da gerne, OCR ist dann gut, wenn die Vorlage gut ist.

meego · Mittwoch 21. Oktober 2015, 10:29

Code: Alles auswählen

NUTZEN SIE DIE EDECARO 
PUNKTE ERWERBEN 
IHR EINKAUF RARE ONS 
I BONUSPUNKTE WERT GEWESEN !

Ist doch akkurater. Es zeigt halt offenbar nur die Worte nicht an, die es wirklich kennt.
Versuch's mal mit einem Bild von einem Ticket wo das Ticket dann nicht so schön auf dem Tisch liegt oder noch andere Gegenstände drauf sind.

Vergleich

Betr. Microsoft: Link

Betreffend Vorbereitung habe ich das hier gefunden: Link - allerdings: $$$$.

sparrow · Mittwoch 21. Oktober 2015, 10:36

Code: Alles auswählen

NUTZEN SIE DIE EDECARO 
PUNKTE ERWERBEN 
IHR EINKAUF RARE ONS 
I BONUSPUNKTE WERT GEWESEN !

gegen

Code: Alles auswählen

NUTZEN SIE D_I_E__EDECARD
PUNKTE SAMMELN+PRAMLEN ERWERBEN
IHR EINKAUF IA’ARE UNS

1 BÜNUSPUNKTE WERT GEWESEN !

Da findest du das Erste akkurater? Ernsthaft?

meego · Mittwoch 21. Oktober 2015, 10:59

Wenn man mit dem Text etwas anstellen will schon. Wie soll man denn die Unterstriche vernünftig entfernen und da Worte herauskristallisieren?

meego · Mittwoch 21. Oktober 2015, 11:10

Hier noch einmal ein Beispiel:
Bild

Tesseract:

Code: Alles auswählen

ihund VVT ‚v5 ’
 rgalm H+R
 6.20€
g: Inkl. ges. List,
gc? 102255
 001368

Microsoft OCR:

Code: Alles auswählen

****** Result for Image/Page 1 ******
Verkehrsverbund VVT IVB 
Mutterbergalm H+R 
Zone Innsbruck 
nach zone Sulzenau 
OIP 09Z 
6.20€ 
270066 
004000 
Inkl. ges. Ust 
102256 
02.01.12 09:28 
00136s

Das sind Welten.