Seite 1 von 2

Brief einlesen

Verfasst: Sonntag 18. Oktober 2015, 16:17
von meego
Was für Möglichkeiten existieren, um einen Brief/Text aus einer Bilddatei (.jpg, etc) zu analysieren und in ein verarbeitbares Textformat zu bringen (OCR)? Gibt's da Geschwindigkeitsvorteile für bestimmte Lösungen?

Re: Brief einlesen

Verfasst: Sonntag 18. Oktober 2015, 16:25
von sparrow
Ich habe Texterkennung bisher immer mit tesseract gemacht. Das ging recht gut.

Re: Brief einlesen

Verfasst: Sonntag 18. Oktober 2015, 16:53
von meego
Mit Python?

Re: Brief einlesen

Verfasst: Sonntag 18. Oktober 2015, 17:22
von sparrow
Was heißt "mit Python"?
Das ist nicht in Python geschrieben, aber ich habe das durchaus von Python aus aufgerufen.

Re: Brief einlesen

Verfasst: Sonntag 18. Oktober 2015, 17:26
von meego
sparrow hat geschrieben:Was heißt "mit Python"?
Das ist nicht in Python geschrieben, aber ich habe das durchaus von Python aus aufgerufen.
Ja, das meinte ich. Wie eine Library.

Re: Brief einlesen

Verfasst: Sonntag 18. Oktober 2015, 21:24
von pixewakb
Interesse am Thema, allerdings keine Erfahrung damit. Mein erster Treffer war dies:

https://pypi.python.org/pypi/pytesseract

Spontan würde mir auch erst einmal die Herangehensweise gefallen, aber: Auf PyPi gibt es aber eine ganze Liste von Python-Bibliotheken, die sich mit OCR bzw. konkret Tesseract befassen:

https://pypi.python.org/pypi?%3Aaction= ... mit=search

Jemand Erfahrungen? Warum kann man dort eigentlich Bibliotheken nicht bewerten. Das könnte die Orientierung erleichtern.

Re: Brief einlesen

Verfasst: Sonntag 18. Oktober 2015, 22:31
von sparrow
Ich hab damit Mitte letzten Jahres etwas gebaut um automatisch gescannte Dokumente zu verarbeiten. Das klappt super.
Die Bibliotheken sind nur Wrapper rund um den Aufruf von Tesseract. Das kann man aber auch einfach selber machen. Wenn es nur darum geht ein externes Programm aufzurufen, mache ich das gerne selbst. Dann weiß ich, dass da auch wirklich das ankommt, was ich möchte.

Re: Brief einlesen

Verfasst: Sonntag 18. Oktober 2015, 23:06
von meego
"google's Tesseract-OCR"? Google's? Gibt es noch andere gleichwertige OCR?

Verstehe ich das richtig: Tesseract bietet die Algorithmen, die den Text extrahieren schon an?
Was ist mit Grafiken wie Briefkopflogos, etc?

Re: Brief einlesen

Verfasst: Sonntag 18. Oktober 2015, 23:14
von sparrow
Wieso stört dich denn das Google? Tesseract ist freie Software. Und, zumindest nach meinen Recherchen letztes Jahr, bei freier Software weit vorne. Keine Ahnung wie das auf dem proprietären Markt aussieht.

Es wird Text aus einem Bild extrahiert. Keine Logos. Es sei denn natürlich das Logo ist Text. So wie das OCR halt macht.
Wenn du auch Grafiken und ähnliches extrahieren willst, musst du das Bild anderweitig, vielleicht vorgelagert, ver- und bearbeiten.

Probier es einfach aus. Tesseract installieren, Bild drauf werfen, schauen was passiert.

Re: Brief einlesen

Verfasst: Montag 19. Oktober 2015, 10:58
von meego
Also frei für jede Art der Verwendung, einschliesslich kommerzieller im Betrieb? Dann stört es nicht.

Okay, ich werde mir das Ding mal installieren.

Re: Brief einlesen

Verfasst: Montag 19. Oktober 2015, 14:28
von sparrow
Ließ doch einfach die Lizenz;)

Re: Brief einlesen

Verfasst: Montag 19. Oktober 2015, 15:13
von meego
https://de.wikipedia.org/wiki/Apache-Lizenz
Zu kommerziell steht da leider nix.

Re: Brief einlesen

Verfasst: Montag 19. Oktober 2015, 15:21
von cofi
Dann liess doch mal die paar Punkte unter "Eigenschaften". Das ist simples Deutsch ohne besondere Fachbegriffe.

Re: Brief einlesen

Verfasst: Montag 19. Oktober 2015, 15:42
von DasIch
meego hat geschrieben:https://de.wikipedia.org/wiki/Apache-Lizenz
Zu kommerziell steht da leider nix.
Ist doch perfekt. Wenn kommerzielle Nutzung in irgendeiner Form eingeschränkt wäre, müsste dies ja irgendwo erwähnt werden.

Re: Brief einlesen

Verfasst: Montag 19. Oktober 2015, 18:10
von meego
Habe noch das hier gefunden:
https://help.ubuntu.com/community/OCR

Re: Brief einlesen

Verfasst: Montag 19. Oktober 2015, 19:04
von meego
Wirklich gut scheint das Ganze aber nicht zu funktionieren. Ich habe jetzt einmal tesseract mit einem Fahrschein ausprobiert. Ist das wirklich der Stand der Technik?

Re: Brief einlesen

Verfasst: Montag 19. Oktober 2015, 21:56
von pixewakb
Für Testzwecke würde ich erst einmal ein einfaches Beispiel nutzen und gucken, was tesseract dann leistet. OCR ist nicht, als wenn du es selbst abtippen würdest. Zumindest ist das meine bisherige Erfahrung. In manchen Fällen ist OCR aber trotzdem sehr hilfreich.

Re: Brief einlesen

Verfasst: Montag 19. Oktober 2015, 22:13
von meego
Ich fand das war ein einfaches Beispiel. :)

Funktioniert's bei geschriebenem Text (Büchern) denn besser als bei Tickets, Bons, etc? Kann man das trainieren?

Bild

=

Code: Alles auswählen

NUTZEN SIE D_I_E__EDECARD
PUNKTE SAMMELN+PRAMLEN ERWERBEN
IHR EINKAUF IA’ARE UNS

1 BÜNUSPUNKTE WERT GEWESEN !

Re: Brief einlesen

Verfasst: Dienstag 20. Oktober 2015, 06:47
von pixewakb
Ich konnte bislang noch nicht die Sprache als Parameter übergeben. Wenn das klappt, könnte das das Ergebnis etwas verbessern. Ich denke aber fast, dass dein Ergebnis schon ziemlich gut ist.

Re: Brief einlesen

Verfasst: Dienstag 20. Oktober 2015, 08:06
von Sirius3
@meego: dein Scan ist sehr schlecht. Die Rückseite druckt durch und die Schrift ist löchrig. OCR funktioniert gut bei guten Vorlagen.