Die Suche ergab 34 Treffer

von CiveX
Freitag 3. Juli 2009, 14:26
Forum: Allgemeine Fragen
Thema: Aufsplitten vom Text via RegExp statt .split()!
Antworten: 14
Zugriffe: 2653

Hali, Halo, und weiter gehts:

# Alle Wörter am Satzanfang finden
for match in re.finditer(r'.\s+([A-Z][a-z]*)\s+',text):
wort = match.group(1)
print "Altes Wort:", wort
# Ist das gefundende Wort woanders im Text kleingeschrieben
if wort.lower() in tokens_lowercase_set:
# Dann wird das Wort am ...
von CiveX
Mittwoch 1. Juli 2009, 23:53
Forum: Allgemeine Fragen
Thema: Aufsplitten vom Text via RegExp statt .split()!
Antworten: 14
Zugriffe: 2653

Na sicher ist das Forum das richtige :).

Es ging ja darum, wie man mit RegExp die eigentliche split() ersetzt. Das ist ja längst beantwortet :).

Ob das jetzt Linguistik ist, oder mathematik, im Endeffekt geht's um den Code.

Hier wird ja nicht linguistisches gefragt, bis auf die Nomina, die ...
von CiveX
Mittwoch 1. Juli 2009, 22:26
Forum: Allgemeine Fragen
Thema: Aufsplitten vom Text via RegExp statt .split()!
Antworten: 14
Zugriffe: 2653

Ich erwarte doch gar nix. Ich bin schon für Denkanstöße und Hinweise in die richtige Richtung schon sehr dankbar.

Nacharbeiten muss ich den Stoff, denn ich verpasst habe. Und das sind nunmal alte Aufgaben aus der Linguistik.
von CiveX
Mittwoch 1. Juli 2009, 21:44
Forum: Allgemeine Fragen
Thema: Aufsplitten vom Text via RegExp statt .split()!
Antworten: 14
Zugriffe: 2653

Jo, haste recht Jerch. Das Problem ist ein sehr schwieriges. Das lasse ich mal links liegen vorerst, und kümmere mich darum:

o Wörter, die normalerweise kleingeschrieben werden und nur am Satzanfang mit großem Anfangsbuchstaben vorkommen,
sollen nun auch am Satzanfang mit einem Kleinbuchstaben ...
von CiveX
Mittwoch 1. Juli 2009, 20:09
Forum: Allgemeine Fragen
Thema: Aufsplitten vom Text via RegExp statt .split()!
Antworten: 14
Zugriffe: 2653

Mit .split() wäre das ganze schon längst erledigt.

Es geht hier darum die reg. Ausdrucke kennenzulernen, deshalb soll in diesem Teil die RegExp das .split() ersetzen.
von CiveX
Mittwoch 1. Juli 2009, 20:07
Forum: Allgemeine Fragen
Thema: Aufsplitten vom Text via RegExp statt .split()!
Antworten: 14
Zugriffe: 2653

Okay, ich habs:

# reg. Ausdruck für sehr grobe Tokensierung
token_grob_re = re.compile(ur'[,;)(.:!?]|[a-zäöüA-ZÄÖÜ]+|[0-9]+')

# grobe Tokensierung matchen
tokens = token_grob_re.findall(text)

Soweit, so gut!

Problem ist allerdings, dieser RegExp macht aus:
ital
.
Maler
,
geb
.
1477

statt ...
von CiveX
Mittwoch 1. Juli 2009, 19:07
Forum: Allgemeine Fragen
Thema: Aufsplitten vom Text via RegExp statt .split()!
Antworten: 14
Zugriffe: 2653

Okay, das ist mir neu mit re.split, das kannte ich noch nicht.

So könnte das gehen, allerdings kann ich nicht wirklich mit split arbeiten, weil ich noch "normalisieren" muss dazwischen, und zwar nach Kriterium:

o Wörter, die normalerweise kleingeschrieben werden und nur am Satzanfang mit großem ...
von CiveX
Mittwoch 1. Juli 2009, 18:34
Forum: Allgemeine Fragen
Thema: Aufsplitten vom Text via RegExp statt .split()!
Antworten: 14
Zugriffe: 2653

Aufsplitten vom Text via RegExp statt .split()!

Howdy,
und wieder ich!

Immer noch am Thema reguläre Ausdrücke.

Ich muss einen Text tokensieren (und normalisieren), und dann je Zeile 1 Token ausgeben. Tokensieren heißt jedes Wort/Satzzeichen entnehmen und ausgeben oder in Liste einfügen.

Folgender Beispieltext untokensiert:
Soddoma (eigentlich ...
von CiveX
Donnerstag 25. Juni 2009, 20:29
Forum: Allgemeine Fragen
Thema: Reguläre Ausdrucke
Antworten: 26
Zugriffe: 4540

jo, u'blablub' statt r'blablub', recht haste!
von CiveX
Donnerstag 25. Juni 2009, 19:08
Forum: Allgemeine Fragen
Thema: Reguläre Ausdrucke
Antworten: 26
Zugriffe: 4540

Okay, das muss an meinem Code liegen: http://paste.pocoo.org/show/125126/ !

Laut Shell, wie Hyperion wollte, liegt es nicht am reg. Ausdrück:
http://www.abload.de/img/greenshot_2009-06-25_21x8h.png

Ich glaube Blackjack hat recht, eventuell. Liegt vielleicht am UTF-8/Unicode Gedöns.

Könnte ...
von CiveX
Donnerstag 25. Juni 2009, 18:37
Forum: Allgemeine Fragen
Thema: Reguläre Ausdrucke
Antworten: 26
Zugriffe: 4540

Nicht laut meiner Ausgabe, BlackJack:

Nomenlexikon
set([u'Chlodwigs', u'Folge', u'Wohltun', u'Weile', u'Mauer'...

Nomentoken-Liste
[u'Chlodwigs', u'Folge', u'Wohltun', u'Weile',....

Nomendictionary
{u'Chlodwigs': '[n.d.]', u'Folge': 'F', u'Wohltun': 'N', u'Weile': 'F', u'Mauer': 'M', u'Paris': 'N ...
von CiveX
Donnerstag 25. Juni 2009, 18:22
Forum: Allgemeine Fragen
Thema: Reguläre Ausdrucke
Antworten: 26
Zugriffe: 4540

Ja, das versuche ich ja gerade....

r'[A-ZÄÖÜ][a-zöäü]+'

Erster Buchstabe A-Z+ÄÖÜ gefolgt vom Rest in Kleinbuchstaben.

Laut Beispiel:

a{4,}b = aaaab aber nicht aaab oder aaab.

Okay dachte ich: Müsste dann ja einfach sein:

r'[A-ZÄÖÜ][a-zöäü]{4,}', also müsste das ja Wörter rausfiltern, die ...
von CiveX
Donnerstag 25. Juni 2009, 17:46
Forum: Allgemeine Fragen
Thema: Reguläre Ausdrucke
Antworten: 26
Zugriffe: 4540

Das hilft mir jetzt nicht EyDu, da ich nicht verstehe WO.

nomen = re.compile(r'[A-ZÄÖÜ][a-zöäü]+')

Sucht ja jedes Wort, wo die 1. Buchstabe groß ist. Soweit, so gut.

Nun möchte ich aber zusätzlich noch, dass er dabei Wörter mit max. 2 Buchstaben (So, Ab, An, Am) bzw. 3 (Als, Dem, Den, Der, Die ...
von CiveX
Donnerstag 25. Juni 2009, 17:33
Forum: Allgemeine Fragen
Thema: Reguläre Ausdrucke
Antworten: 26
Zugriffe: 4540

http://paste.pocoo.org/show/125112/

# Definition des reg. Ausdrücks zur klassifizierung von Nomen
# Annahme: Nomen werden mit dem 1. Buchstaben groß geschrieben
nomen = re.compile(r'[A-ZÄÖÜ][a-zöäü]+')

Kann ich den reg. Ausdruck so ändern, dass er Wörter die max. 2 bzw. 3 Zeichen lang sind ...
von CiveX
Donnerstag 25. Juni 2009, 09:18
Forum: Allgemeine Fragen
Thema: Reguläre Ausdrucke
Antworten: 26
Zugriffe: 4540

So, ich habe mal weiter an meinem Gerüst gebaut:

http://paste.pocoo.org/show/125014/

Text wird in Token gesplittet, jedes Token wird durchgangen und nach Nomen gematcht, daraus wird dann eine Nomenliste gebaut.

Nomenliste wird nun durchgangen, jedes Token in der Nomenliste wird nun nach match_m/f ...
von CiveX
Mittwoch 24. Juni 2009, 21:38
Forum: Allgemeine Fragen
Thema: Reguläre Ausdrucke
Antworten: 26
Zugriffe: 4540

Recht haste, Hyperion.

Was dein Code angeht, ich war zu schnell beim Tippen als beim schreiben. Den Code verstehe ich nach mehrmaligem durchlesen. Du arbeitest halt mit Elementen die ich noch nicht Behandelt habe in Computerlingustik aka def, __main__ und so Dinger.

Klar, ich benutze sowas auch ...
von CiveX
Mittwoch 24. Juni 2009, 20:41
Forum: Allgemeine Fragen
Thema: Reguläre Ausdrucke
Antworten: 26
Zugriffe: 4540

Interessant, Hyperion, allerdings verwendenst du Sachen die mir nicht bekannt sind. Die ich aber allerdings logisch nachvollziehen kann.

Mein derzeitiger Code sieht so aus:

http://paste.pocoo.org/show/124959/

Jetzt muss ich nun die Kriteria für Nomen genauer definieren, und Kriteria zum Genus ...
von CiveX
Mittwoch 24. Juni 2009, 19:27
Forum: Allgemeine Fragen
Thema: Reguläre Ausdrucke
Antworten: 26
Zugriffe: 4540

Hallo Hyperion,
das ist schonmal ein super Anfang für mich. Zumindest verstehe ich jetzt die Schreibweise des reg. Ausdrücken etwas besser.
[A-ZÖÄÜ], erster Buchstabe groß gefolgt vom [a-z]+ Rest im Wort!

Sauber, danke!

Ich habe mir in der Zwischenzeit Regeln überlegt, wie man Nomen besser ...
von CiveX
Mittwoch 24. Juni 2009, 18:57
Forum: Allgemeine Fragen
Thema: Reguläre Ausdrucke
Antworten: 26
Zugriffe: 4540

Hyperion, ich darf nicht!

Ich MUSS reg. Ausrücke verwenden.

btw. falls Fragen auftauchen. Das ist eine Computer-Linguistische Aufgabe ich die, wegen Krankheit, nicht machen könnte und nun nachholen muss.

Bringt mir zwar keine Noten und Punkte, da zu Spät, aber verstehen und richtig haben möchte ...
von CiveX
Mittwoch 24. Juni 2009, 18:27
Forum: Allgemeine Fragen
Thema: Reguläre Ausdrucke
Antworten: 26
Zugriffe: 4540

Reguläre Ausdrucke

Hallo,

mal wieder ich. Diesmal geht es um reguläre Ausdrucke.

Ich habe eine Textdatei. Darin sind halt normale Sätze wie z.B.

Ich fahre heute Auto , und bin glücklich dabei . Usw. usf. die Leerzeichen zwischen den Satz- und Sonderzeichen sind absicht im Text, damit das einfacher wird.

Folgendes ...