1. repr ruft __repr__() des objektes auf. den unterschied zu str() hab ich noch nicht ganz gecheckt, sorry.
check:
>>>repr(None)
'None'
2. hast du den flag re.L mal genauer angesehen?
also re.I und re.L wären sicher mal eine hilfe, würde aber nur die sonderzeichen aus deiner sprache mit \b und \w rausfiltern. womöglich genügt das? kommt natürlich aufs programm an.
3. unicode sequenzen findest du unter windows mit der zeichentabelle. vorsicht ist nur bei manchen schreibweisen im source zu beachten, denn sie können oktal sein. \223 ist oktal (danke adobe), ich denke \x223 aber hex.
re.sub Parameter
Code: Alles auswählen
In [26]: re.findall("(\w+)", "Käse kuchen Kartöffel Kar23132", re.UNICODE)
Out[26]: ['K\xc3', 'se', 'kuchen', 'Kart\xc3', 'ffel', 'Kar23132']
Leute, euch ist schon klar, dass ihr auf einen vier Jahre alten Beitrag antwortet!?