PyParsing - Dubioses Verhalten

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Antworten
patmaster
User
Beiträge: 106
Registriert: Donnerstag 3. Februar 2011, 17:21

Hi,

Ich beobachte hier ein wirklich sehr merkwürdiges Verhalten bei einem unserer Tools.
Grundsätzlich ist es dafür gedacht bestimmte Muster in XML-Files zu erkennen und mit bestimmtem Markup zu umschließen. In diesem speziellen Fall geht es um Zitate von Normen, also zb "§1 Abs 4 StVO". Das Ganze ist in Python 2.7 mit Pyparsing gelöst worden und funktionierte bisher sehr schön.
Bei einigen files wird nun jedoch einfach so nichts mehr, oder nicht mehr alles erkannt. Ich kann dafür aber absolut keinen Grund finden. Die Encodings sind immer gleich und es kommt sogar vor das ein und das selbe Zitat in einem file mal erkannt und mal nicht erkannt wird.

Dem Skript wird ein Ordner übergeben, in dem es alle files mit dem Markup versehen soll: --dead-link--
Die Erkennung findet dann hier statt: --dead-link--

In gesabk.py finden sich nur Abkürzungen wieder. Eigenltich keinerlei Logik deswegen würd ich euch die einfach mal vorenthalten, kann sie aber notfalls nachreichen falls sie absolut notwendig ist.

Die files haben alle iso-8859-1 encoding.

Ich kann leider die files nicht bereitstellen (Firmenrichtlinien), hoffe aber ihr könnt vlt. anhand des Codes vlt. etwas erkennen.

//EDIT: Jetzt wollte ich gerade ein file zensieren damit ich es posten kann und wenn ich den meisten Content rausnehme funktioniert es...hilft das irgendwie ?

//EDIT2: Problem gelöst. Eine regex war schuld. Ich verstehe zwar noch nicht ganz warum, aber nach einer Anpassung funzt jetzt alles.
Antworten