Brief einlesen

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

Was für Möglichkeiten existieren, um einen Brief/Text aus einer Bilddatei (.jpg, etc) zu analysieren und in ein verarbeitbares Textformat zu bringen (OCR)? Gibt's da Geschwindigkeitsvorteile für bestimmte Lösungen?
Benutzeravatar
sparrow
User
Beiträge: 4599
Registriert: Freitag 17. April 2009, 10:28

Ich habe Texterkennung bisher immer mit tesseract gemacht. Das ging recht gut.
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

Mit Python?
Benutzeravatar
sparrow
User
Beiträge: 4599
Registriert: Freitag 17. April 2009, 10:28

Was heißt "mit Python"?
Das ist nicht in Python geschrieben, aber ich habe das durchaus von Python aus aufgerufen.
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

sparrow hat geschrieben:Was heißt "mit Python"?
Das ist nicht in Python geschrieben, aber ich habe das durchaus von Python aus aufgerufen.
Ja, das meinte ich. Wie eine Library.
Benutzeravatar
pixewakb
User
Beiträge: 1413
Registriert: Sonntag 24. April 2011, 19:43

Interesse am Thema, allerdings keine Erfahrung damit. Mein erster Treffer war dies:

https://pypi.python.org/pypi/pytesseract

Spontan würde mir auch erst einmal die Herangehensweise gefallen, aber: Auf PyPi gibt es aber eine ganze Liste von Python-Bibliotheken, die sich mit OCR bzw. konkret Tesseract befassen:

https://pypi.python.org/pypi?%3Aaction= ... mit=search

Jemand Erfahrungen? Warum kann man dort eigentlich Bibliotheken nicht bewerten. Das könnte die Orientierung erleichtern.
Benutzeravatar
sparrow
User
Beiträge: 4599
Registriert: Freitag 17. April 2009, 10:28

Ich hab damit Mitte letzten Jahres etwas gebaut um automatisch gescannte Dokumente zu verarbeiten. Das klappt super.
Die Bibliotheken sind nur Wrapper rund um den Aufruf von Tesseract. Das kann man aber auch einfach selber machen. Wenn es nur darum geht ein externes Programm aufzurufen, mache ich das gerne selbst. Dann weiß ich, dass da auch wirklich das ankommt, was ich möchte.
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

"google's Tesseract-OCR"? Google's? Gibt es noch andere gleichwertige OCR?

Verstehe ich das richtig: Tesseract bietet die Algorithmen, die den Text extrahieren schon an?
Was ist mit Grafiken wie Briefkopflogos, etc?
Benutzeravatar
sparrow
User
Beiträge: 4599
Registriert: Freitag 17. April 2009, 10:28

Wieso stört dich denn das Google? Tesseract ist freie Software. Und, zumindest nach meinen Recherchen letztes Jahr, bei freier Software weit vorne. Keine Ahnung wie das auf dem proprietären Markt aussieht.

Es wird Text aus einem Bild extrahiert. Keine Logos. Es sei denn natürlich das Logo ist Text. So wie das OCR halt macht.
Wenn du auch Grafiken und ähnliches extrahieren willst, musst du das Bild anderweitig, vielleicht vorgelagert, ver- und bearbeiten.

Probier es einfach aus. Tesseract installieren, Bild drauf werfen, schauen was passiert.
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

Also frei für jede Art der Verwendung, einschliesslich kommerzieller im Betrieb? Dann stört es nicht.

Okay, ich werde mir das Ding mal installieren.
Benutzeravatar
sparrow
User
Beiträge: 4599
Registriert: Freitag 17. April 2009, 10:28

Ließ doch einfach die Lizenz;)
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

https://de.wikipedia.org/wiki/Apache-Lizenz
Zu kommerziell steht da leider nix.
Benutzeravatar
cofi
Python-Forum Veteran
Beiträge: 4432
Registriert: Sonntag 30. März 2008, 04:16
Wohnort: RGFybXN0YWR0

Dann liess doch mal die paar Punkte unter "Eigenschaften". Das ist simples Deutsch ohne besondere Fachbegriffe.
DasIch
User
Beiträge: 2718
Registriert: Montag 19. Mai 2008, 04:21
Wohnort: Berlin

meego hat geschrieben:https://de.wikipedia.org/wiki/Apache-Lizenz
Zu kommerziell steht da leider nix.
Ist doch perfekt. Wenn kommerzielle Nutzung in irgendeiner Form eingeschränkt wäre, müsste dies ja irgendwo erwähnt werden.
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

Habe noch das hier gefunden:
https://help.ubuntu.com/community/OCR
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

Wirklich gut scheint das Ganze aber nicht zu funktionieren. Ich habe jetzt einmal tesseract mit einem Fahrschein ausprobiert. Ist das wirklich der Stand der Technik?
Benutzeravatar
pixewakb
User
Beiträge: 1413
Registriert: Sonntag 24. April 2011, 19:43

Für Testzwecke würde ich erst einmal ein einfaches Beispiel nutzen und gucken, was tesseract dann leistet. OCR ist nicht, als wenn du es selbst abtippen würdest. Zumindest ist das meine bisherige Erfahrung. In manchen Fällen ist OCR aber trotzdem sehr hilfreich.
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

Ich fand das war ein einfaches Beispiel. :)

Funktioniert's bei geschriebenem Text (Büchern) denn besser als bei Tickets, Bons, etc? Kann man das trainieren?

Bild

=

Code: Alles auswählen

NUTZEN SIE D_I_E__EDECARD
PUNKTE SAMMELN+PRAMLEN ERWERBEN
IHR EINKAUF IA’ARE UNS

1 BÜNUSPUNKTE WERT GEWESEN !
Benutzeravatar
pixewakb
User
Beiträge: 1413
Registriert: Sonntag 24. April 2011, 19:43

Ich konnte bislang noch nicht die Sprache als Parameter übergeben. Wenn das klappt, könnte das das Ergebnis etwas verbessern. Ich denke aber fast, dass dein Ergebnis schon ziemlich gut ist.
Sirius3
User
Beiträge: 18335
Registriert: Sonntag 21. Oktober 2012, 17:20

@meego: dein Scan ist sehr schlecht. Die Rückseite druckt durch und die Schrift ist löchrig. OCR funktioniert gut bei guten Vorlagen.
Antworten