ich habe eine frage: ich möchte aus grafiken, die originär als HPGL (also vektorformat) vorliegen, text extrahieren. von diesem text weiß ich nur die ausrichtung (horizontal, vertikal) und die ungefähre position in der grafik - also muß nicht die gesamte grafik "gescannt" werden. Es handelt sich nicht um fließtext von 1000 seiten, sondern um strings in einem umfang von ca. 20 - 30 zeichen. allerdings handelt es sich um CAD-zeichensätze, die nicht unbedingt an jeder windows/linux-hausecke gefunden werden. für die einzelnen fonts müßte man sich dann eben ein eigenes alphabet mit den geometrischen ausprägungen selbst definieren.
das parsen der datei stellt nicht das problem dar, sondern der aus aus einzelnen linien- (oder auch kreisbogen-)segmenten bestehenden zeichen. nach etwas recherche im web kristallisierten sich - bislang - 2 mögliche wege heraus:
- bilderkennung mit Fast Fourier Transformation, wobei ich die genaueren mathematischen hintergründe noch nicht erforscht habe - entsprechende literaturhinweise/links zu tutorials über das "wie, wann und warum" für "durchschnittsmenschen" sind gerne willkommen. stichwort: wie erkenne ich aus einem "strichhaufen" ein einzelnes zeichen?
- texterkennung (OCR): nun angesichts deer eingeschränkten zeichenlänge (siehe oben 20-30) sehe ich das eher in der region "kanonen auf spatzen"....
für den fall, daß sich die HPGL-dateien nicht originär bearbeiten ließen, könnte ich mir noch eine temporäre konvertierung in ein pixelformat (tiff oder png) vorstellen. vielleicht gibts ja auch einen ganz anderen lösungsansatz?
danke für eure hoffentlich - zahlreichen - antworten!

zaf
ich komme mir mit meiner frage vor wie der rudi assauer in der veltins werbung: nur angucken, nicht anfassen... die fragestellung scheint viele zu interessieren, aber geantwortet hat noch keine(r)
