Brief einlesen

meego · Sonntag 18. Oktober 2015, 16:17

Was für Möglichkeiten existieren, um einen Brief/Text aus einer Bilddatei (.jpg, etc) zu analysieren und in ein verarbeitbares Textformat zu bringen (OCR)? Gibt's da Geschwindigkeitsvorteile für bestimmte Lösungen?

sparrow · Sonntag 18. Oktober 2015, 16:25

Ich habe Texterkennung bisher immer mit tesseract gemacht. Das ging recht gut.

meego · Sonntag 18. Oktober 2015, 16:53

Mit Python?

sparrow · Sonntag 18. Oktober 2015, 17:22

Was heißt "mit Python"?
Das ist nicht in Python geschrieben, aber ich habe das durchaus von Python aus aufgerufen.

meego · Sonntag 18. Oktober 2015, 17:26

sparrow hat geschrieben:Was heißt "mit Python"?
Das ist nicht in Python geschrieben, aber ich habe das durchaus von Python aus aufgerufen.

Ja, das meinte ich. Wie eine Library.

pixewakb · Sonntag 18. Oktober 2015, 21:24

Interesse am Thema, allerdings keine Erfahrung damit. Mein erster Treffer war dies:

https://pypi.python.org/pypi/pytesseract

Spontan würde mir auch erst einmal die Herangehensweise gefallen, aber: Auf PyPi gibt es aber eine ganze Liste von Python-Bibliotheken, die sich mit OCR bzw. konkret Tesseract befassen:

https://pypi.python.org/pypi?%3Aaction= ... mit=search

Jemand Erfahrungen? Warum kann man dort eigentlich Bibliotheken nicht bewerten. Das könnte die Orientierung erleichtern.

sparrow · Sonntag 18. Oktober 2015, 22:31

Ich hab damit Mitte letzten Jahres etwas gebaut um automatisch gescannte Dokumente zu verarbeiten. Das klappt super.
Die Bibliotheken sind nur Wrapper rund um den Aufruf von Tesseract. Das kann man aber auch einfach selber machen. Wenn es nur darum geht ein externes Programm aufzurufen, mache ich das gerne selbst. Dann weiß ich, dass da auch wirklich das ankommt, was ich möchte.

meego · Sonntag 18. Oktober 2015, 23:06

"google's Tesseract-OCR"? Google's? Gibt es noch andere gleichwertige OCR?

Verstehe ich das richtig: Tesseract bietet die Algorithmen, die den Text extrahieren schon an?
Was ist mit Grafiken wie Briefkopflogos, etc?

sparrow · Sonntag 18. Oktober 2015, 23:14

Wieso stört dich denn das Google? Tesseract ist freie Software. Und, zumindest nach meinen Recherchen letztes Jahr, bei freier Software weit vorne. Keine Ahnung wie das auf dem proprietären Markt aussieht.

Es wird Text aus einem Bild extrahiert. Keine Logos. Es sei denn natürlich das Logo ist Text. So wie das OCR halt macht.
Wenn du auch Grafiken und ähnliches extrahieren willst, musst du das Bild anderweitig, vielleicht vorgelagert, ver- und bearbeiten.

Probier es einfach aus. Tesseract installieren, Bild drauf werfen, schauen was passiert.

meego · Montag 19. Oktober 2015, 10:58

Also frei für jede Art der Verwendung, einschliesslich kommerzieller im Betrieb? Dann stört es nicht.

Okay, ich werde mir das Ding mal installieren.

sparrow · Montag 19. Oktober 2015, 14:28

Ließ doch einfach die Lizenz

meego · Montag 19. Oktober 2015, 15:13

https://de.wikipedia.org/wiki/Apache-Lizenz
Zu kommerziell steht da leider nix.

cofi · Montag 19. Oktober 2015, 15:21

Dann liess doch mal die paar Punkte unter "Eigenschaften". Das ist simples Deutsch ohne besondere Fachbegriffe.

DasIch · Montag 19. Oktober 2015, 15:42

meego hat geschrieben:https://de.wikipedia.org/wiki/Apache-Lizenz
Zu kommerziell steht da leider nix.

Ist doch perfekt. Wenn kommerzielle Nutzung in irgendeiner Form eingeschränkt wäre, müsste dies ja irgendwo erwähnt werden.

meego · Montag 19. Oktober 2015, 18:10

Habe noch das hier gefunden:
https://help.ubuntu.com/community/OCR

meego · Montag 19. Oktober 2015, 19:04

Wirklich gut scheint das Ganze aber nicht zu funktionieren. Ich habe jetzt einmal tesseract mit einem Fahrschein ausprobiert. Ist das wirklich der Stand der Technik?

pixewakb · Montag 19. Oktober 2015, 21:56

Für Testzwecke würde ich erst einmal ein einfaches Beispiel nutzen und gucken, was tesseract dann leistet. OCR ist nicht, als wenn du es selbst abtippen würdest. Zumindest ist das meine bisherige Erfahrung. In manchen Fällen ist OCR aber trotzdem sehr hilfreich.

meego · Montag 19. Oktober 2015, 22:13

Ich fand das war ein einfaches Beispiel.

Funktioniert's bei geschriebenem Text (Büchern) denn besser als bei Tickets, Bons, etc? Kann man das trainieren?

Bild

=

Code: Alles auswählen

NUTZEN SIE D_I_E__EDECARD
PUNKTE SAMMELN+PRAMLEN ERWERBEN
IHR EINKAUF IA’ARE UNS

1 BÜNUSPUNKTE WERT GEWESEN !

pixewakb · Dienstag 20. Oktober 2015, 06:47

Ich konnte bislang noch nicht die Sprache als Parameter übergeben. Wenn das klappt, könnte das das Ergebnis etwas verbessern. Ich denke aber fast, dass dein Ergebnis schon ziemlich gut ist.

Sirius3 · Dienstag 20. Oktober 2015, 08:06

@meego: dein Scan ist sehr schlecht. Die Rückseite druckt durch und die Schrift ist löchrig. OCR funktioniert gut bei guten Vorlagen.