und wieder ich!
Immer noch am Thema reguläre Ausdrücke.
Ich muss einen Text tokensieren (und normalisieren), und dann je Zeile 1 Token ausgeben. Tokensieren heißt jedes Wort/Satzzeichen entnehmen und ausgeben oder in Liste einfügen.
Folgender Beispieltext untokensiert:
tokensiert und bearbeitet ausgegeben sieht der Text dann so aus: http://pastebay.com/26238 !Soddoma (eigentlich Giovannantonio Bazzi), tpital. Maler,
geb. 1477 zu Vercelli in Savoyen, bildete sich seit 1498 nach
Leonardo da Vinci in Mailand und kam 1501 nach Siena, wo er
verschiedene Fresken und Tafelbilder ausführte;
Ich habe aber absolut keinen Plan wie ich vorgehen soll. Ich stehe wirklich total auf dem Schlauch.
Hat jemand eine Ahnung wie ich vom Beispieltext zum bearbeitetem Text komme via reg. Ausdrücken?
Ich bekomm das so falsch und krumm raus, bei der meine Ausgabe dann so aussieht: http://pastebay.com/26242 ! Das ist aber natürlich total falsch, da ich ja zuerst Satzzeichen ausgebe, und dann Wörter.