Reguläre Ausdrucke

BlackJack · Donnerstag 25. Juni 2009, 18:28

@CiveX: Du hast da keine Buchstaben, sondern Bytes. Und ich vermute mal das die Buchstaben, die Du eingegeben hast, als UTF-8 kodiert sind. Damit ist alles ausserhalb von ASCII als zwei Bytes kodiert. Und damit kannst Du dann reguläre Ausdrücke und *Buchstaben* vergessen. Du solltest konsequent mit Unicode arbeiten, wenn Du mit Text arbeitest.

Hyperion · Donnerstag 25. Juni 2009, 18:31

Du musst den hinteren Teil "gruppieren". Somit kannst Du dort die Mindestlänge festlegen:

Code: Alles auswählen

In [24]: nomen = re.compile(r"[A-ZÄÖÜ]([a-zöäü]+){2,}")

In [25]: re.match(nomen, "Eins")
Out[25]: <_sre.SRE_Match object at 0x2722648>

In [26]: re.match(nomen, "Ei")

In [27]: re.match(nomen, "Ein")
Out[27]: <_sre.SRE_Match object at 0x2722738>

Du sollest so etwas am besten in ner Shell oder einem Editor für Python RegExps testen. Z.B. Kodos

CiveX · Donnerstag 25. Juni 2009, 18:37

Nicht laut meiner Ausgabe, BlackJack:

Nomenlexikon
set([u'Chlodwigs', u'Folge', u'Wohltun', u'Weile', u'Mauer'...

Nomentoken-Liste
[u'Chlodwigs', u'Folge', u'Wohltun', u'Weile',....

Nomendictionary
{u'Chlodwigs': '[n.d.]', u'Folge': 'F', u'Wohltun': 'N', u'Weile': 'F', u'Mauer': 'M', u'Paris': 'N'....

Scheint alles in Unicode zu sein!

@Hyperion: OMG!

me = dumm

! Danke das geht schonmal besser.

Jetzt muss ich nur noch rausfinden, warum der Kräfte, Geräusche, Städte, etc. rauswirft.

Also der wirft Wörter raus, die zwar mind. 3 Buchstaben lang sind,a ber deren 3. bzw. 4. Buchstabe ein ä,ö,ü, oder ß ist. Das macht überhaupt keinen Sinn

CiveX · Donnerstag 25. Juni 2009, 19:08

Okay, das muss an meinem Code liegen: http://paste.pocoo.org/show/125126/ !

Laut Shell, wie Hyperion wollte, liegt es nicht am reg. Ausdrück:
Bild

Ich glaube Blackjack hat recht, eventuell. Liegt vielleicht am UTF-8/Unicode Gedöns.

Könnte jemand mal schauen bitte? Ich bin ratlos

Meine Ausgaben oben zeigen ja, dass es Unicode ist am u'blablub'

BlackJack · Donnerstag 25. Juni 2009, 19:56

@CiveX: Deine *regulären Ausdrücke* sind kein Unicode, nur die Daten auf die Du sie anwendest.

CiveX · Donnerstag 25. Juni 2009, 20:29

jo, u'blablub' statt r'blablub', recht haste!

Leonidas · Donnerstag 25. Juni 2009, 21:39

Am besten ``ur``, damit die Raw-Einstellung beibehalten wird.