Brief einlesen
Interesse am Thema, allerdings keine Erfahrung damit. Mein erster Treffer war dies:
https://pypi.python.org/pypi/pytesseract
Spontan würde mir auch erst einmal die Herangehensweise gefallen, aber: Auf PyPi gibt es aber eine ganze Liste von Python-Bibliotheken, die sich mit OCR bzw. konkret Tesseract befassen:
https://pypi.python.org/pypi?%3Aaction= ... mit=search
Jemand Erfahrungen? Warum kann man dort eigentlich Bibliotheken nicht bewerten. Das könnte die Orientierung erleichtern.
https://pypi.python.org/pypi/pytesseract
Spontan würde mir auch erst einmal die Herangehensweise gefallen, aber: Auf PyPi gibt es aber eine ganze Liste von Python-Bibliotheken, die sich mit OCR bzw. konkret Tesseract befassen:
https://pypi.python.org/pypi?%3Aaction= ... mit=search
Jemand Erfahrungen? Warum kann man dort eigentlich Bibliotheken nicht bewerten. Das könnte die Orientierung erleichtern.
Ich hab damit Mitte letzten Jahres etwas gebaut um automatisch gescannte Dokumente zu verarbeiten. Das klappt super.
Die Bibliotheken sind nur Wrapper rund um den Aufruf von Tesseract. Das kann man aber auch einfach selber machen. Wenn es nur darum geht ein externes Programm aufzurufen, mache ich das gerne selbst. Dann weiß ich, dass da auch wirklich das ankommt, was ich möchte.
Die Bibliotheken sind nur Wrapper rund um den Aufruf von Tesseract. Das kann man aber auch einfach selber machen. Wenn es nur darum geht ein externes Programm aufzurufen, mache ich das gerne selbst. Dann weiß ich, dass da auch wirklich das ankommt, was ich möchte.
Wieso stört dich denn das Google? Tesseract ist freie Software. Und, zumindest nach meinen Recherchen letztes Jahr, bei freier Software weit vorne. Keine Ahnung wie das auf dem proprietären Markt aussieht.
Es wird Text aus einem Bild extrahiert. Keine Logos. Es sei denn natürlich das Logo ist Text. So wie das OCR halt macht.
Wenn du auch Grafiken und ähnliches extrahieren willst, musst du das Bild anderweitig, vielleicht vorgelagert, ver- und bearbeiten.
Probier es einfach aus. Tesseract installieren, Bild drauf werfen, schauen was passiert.
Es wird Text aus einem Bild extrahiert. Keine Logos. Es sei denn natürlich das Logo ist Text. So wie das OCR halt macht.
Wenn du auch Grafiken und ähnliches extrahieren willst, musst du das Bild anderweitig, vielleicht vorgelagert, ver- und bearbeiten.
Probier es einfach aus. Tesseract installieren, Bild drauf werfen, schauen was passiert.
https://de.wikipedia.org/wiki/Apache-Lizenz
Zu kommerziell steht da leider nix.
Zu kommerziell steht da leider nix.
- cofi
- Python-Forum Veteran
- Beiträge: 4432
- Registriert: Sonntag 30. März 2008, 04:16
- Wohnort: RGFybXN0YWR0
Dann liess doch mal die paar Punkte unter "Eigenschaften". Das ist simples Deutsch ohne besondere Fachbegriffe.
Michael Markert ❖ PEP 8 Übersetzung ❖ Tutorial Übersetzung (3.x) ⇒ Online-Version (Python 3.3) ❖ Deutscher Python-Insider ❖ Projekte
Ist doch perfekt. Wenn kommerzielle Nutzung in irgendeiner Form eingeschränkt wäre, müsste dies ja irgendwo erwähnt werden.meego hat geschrieben:https://de.wikipedia.org/wiki/Apache-Lizenz
Zu kommerziell steht da leider nix.
Habe noch das hier gefunden:
https://help.ubuntu.com/community/OCR
https://help.ubuntu.com/community/OCR
Für Testzwecke würde ich erst einmal ein einfaches Beispiel nutzen und gucken, was tesseract dann leistet. OCR ist nicht, als wenn du es selbst abtippen würdest. Zumindest ist das meine bisherige Erfahrung. In manchen Fällen ist OCR aber trotzdem sehr hilfreich.
Ich fand das war ein einfaches Beispiel. 
Funktioniert's bei geschriebenem Text (Büchern) denn besser als bei Tickets, Bons, etc? Kann man das trainieren?

=
Funktioniert's bei geschriebenem Text (Büchern) denn besser als bei Tickets, Bons, etc? Kann man das trainieren?

=
Code: Alles auswählen
NUTZEN SIE D_I_E__EDECARD
PUNKTE SAMMELN+PRAMLEN ERWERBEN
IHR EINKAUF IA’ARE UNS
1 BÜNUSPUNKTE WERT GEWESEN !Ich konnte bislang noch nicht die Sprache als Parameter übergeben. Wenn das klappt, könnte das das Ergebnis etwas verbessern. Ich denke aber fast, dass dein Ergebnis schon ziemlich gut ist.
