Großbuchstaben ...?

Denkow · Dienstag 15. Januar 2013, 16:07

mutetella hat geschrieben: Was muss geschehen, wenn ein Wort nicht mit einem Großbuchstaben beginnt?

stimmt, das weiß meine funktion ja noch gar nicht. also muss ich wohl da noch was einfügen.
dann muss meine funktion das wort "ignorieren" und einfach überspringen?!

mutetella hat geschrieben: Wenn ich Dich richtig verstanden habe, möchtest Du ja immer 2 Wörter mit Großbuchstaben zusammen in einer Liste, außer zwischen diesen beiden Wörtern liegt ein Wort mit Kleinbuchstaben...

ganz genau!

BlackJack · Dienstag 15. Januar 2013, 16:24

@mutetella: Wenn man eine Liste, oder allgemein ein „iterable”, hat und jeweils zwei aufeinander folgende Elemente zu einem Tupel zusammenfassen möchte, dann kann man schon `zip()` dazu verwenden. Allerdings anders als Denkow das getan hat. Ungetestet:

Code: Alles auswählen

def pairwise(iterable):
    iterator = iter(iterable)
    return zip(iterator, iterator)

In Python 2.x kann man `itertools.izip()` verwenden um das ganze „lazy” zu machen.

mutetella · Dienstag 15. Januar 2013, 17:19

@BlackJack:
Schon, nur besteht die Aufgabenstellung ja darin, dass nur direkt aufeinander folgende Treffer ein Paar bilden dürfen. Und ich glaube, dass Denkow gerade daran 'hängt'...

Wobei jetzt natürlich interessant wäre, für was das Ergebnis benötigt wird. Ich ahne, dass es darum geht, Vor- und Nachname zu extrahieren. Und ich kann mir jetzt nicht vorstellen, wie das ohne eine gehörige Portion Magie funktionieren kann, Beispiel 'Max von Mustermann'.

mutetella

BlackJack · Dienstag 15. Januar 2013, 17:26

@mutetella: Ui, daran hatte ich gar nicht gedacht.

Edit: Was gleich die nächste Frage aufwirft was bei mehr als zwei aufeinanderfolgenden Worten mit Grossbuchstaben passieren soll. Max Peter Mustermann.

Denkow · Dienstag 15. Januar 2013, 17:48

ja genau daran hänge ich...

solche ausnahmen wie "Max Peter Mustermann" werden jetzt einfach mal ignoriert

Denkow · Dienstag 15. Januar 2013, 18:41

Keiner mehr ne Idee? :K

cofi · Dienstag 15. Januar 2013, 18:48

Da es mich in den Fingern gejuckt hat:

Code: Alles auswählen

In [3]: def proper_noun_pairs(words):
    pairs = []
    current = []
    for word in words:
        if word[0].isupper():
            current.append(word)
        else:
            current = []
        if len(current) == 2:
            pairs.append(tuple(current))
            current = []
    return pairs

In [4]:proper_ noun_pairs("Max Mustermann ging in den Boesen Wald hinein".split())
Out[4]: [('Max', 'Mustermann'), ('Boesen', 'Wald')]

kbr · Dienstag 15. Januar 2013, 19:21

Noch 'ne Variante:

Code: Alles auswählen

def get_uppercase_pairs(sentence):
    pairs = []
    previous = ' '
    for word in sentence.split():
        if word[0].isupper() and previous[0].isupper():
            pairs.append((previous, word))
        previous = word
    return pairs

sentence = "Max Mustermann ging in den Boesen Wald hinein"
print get_uppercase_pairs(sentence)

mutetella · Dienstag 15. Januar 2013, 19:53

Und hier ist meine:

Code: Alles auswählen

def group_uppers(sentence):
    result = []
    pair = []
    for word in sentence.split()[1:]:
        if word[0].isupper():
            pair.append(word)
        else:
            if pair:
                result.append(pair)
                pair = []
        if len(pair) == 2:
            result.append(pair)
            pair = []
    if pair:
        result.append(pair)
    return result

Ich bin davon ausgegangen, dass zwei nicht direkt aufeinander folgende groß geschriebene Wörter auch berücksichtigt werden sollen, dann halt nicht als Paar...

Code: Alles auswählen

>>> print group_uppers('Ist der Max von Mustermann ein Freund von Clara Schumann?')
[['Max'], ['Mustermann'], ['Freund'], ['Clara', 'Schumann?']]

Wobei die Probleme bei folgendem Satz schon anfangen:

Code: Alles auswählen

print group_uppers('Ist der Max von Mustermann Clara Schumanns Freund?')
[['Max'], ['Mustermann', 'Clara'], ['Schumanns', 'Freund?']]

Weshalb ich den ganzen Ansatz für völlig verkehrt halte.

Ich glaube, ohne ein Wörterbuch, das möglichst alle Vornamen enthält, kommt man nicht wirklich weiter. Selbst dann lässt sich bei 'Das ist das Zimmer vom Nikolaus' kaum zwischen dem Nachnamen 'Zimmer' und dem Substantiv 'Zimmer' unterscheiden.

mutetella

BlackJack · Dienstag 15. Januar 2013, 20:15

@mutetella: Umgekehrt kann's auch passieren wenn Leute Nachnamen haben, die auch als Vornamen gebräuchlich sind. Walter zum Beispiel.

mutetella · Mittwoch 16. Januar 2013, 09:19

Schon erstaunlich, wie kompliziert selbst so vermeintlich einfaches Zeugs wie deutsche Namensgebung sein kann...

Hab' mir mal ein paar Gedanken darüber gemacht, wie die Regeln zum Parsen ausschauen könnten:

Code: Alles auswählen

Wort        uppercase Zusatz Unbekannt  $
'Wo'            X
'steckt'                         X
'Karl'          X
'Heinz'         X
'von'                    X
'Hassel'        X
'wundert'                        X
'sich'                           X
'Herr'          X
'Wunder'        X                       X

- Ein uppercase wird entdeckt:
    - Folgewort ist uppercase        -> in queue
               oder Zusatz           -> in queue
    - Folgewort ist Unbekannt 
               oder $ 
                und queue nicht leer -> Namen bilden

mutetella

cofi · Mittwoch 16. Januar 2013, 12:04

Und "von und zu" wird noch nicht beachtet

Wenn du Namen per Whitelist erkennen willst, dann brauchst du a) eine sehr grosse und b) eine, die komplette Namen enthaelt. Aber da das neue Meldegesetz so ein riesiges Datenschutzloch ist, ist das herankommen ja vielleicht sogar einfach moeglich ...

Und dann gibt es immernoch lustige Randfaelle: "Hat Frank Josef Michael Heinz angerufen?" Na welche kompletten Namen kann man daraus alle bilden?

EyDu · Mittwoch 16. Januar 2013, 12:34

cofi hat geschrieben:Und dann gibt es immernoch lustige Randfaelle: "Hat Frank Josef Michael Heinz angerufen?" Na welche kompletten Namen kann man daraus alle bilden?

Einen besonderen Randfall würde ich das noch nicht einmal nennen, mit zwei Namen ist das ja schon nicht mehr eindeutig: "Hat Frank Josef angerufen?" Also: "Hat [Frank] (den) [Josef] angerufen?" oder "Hat [Frank Josef] (dich/hier/heute) angerufen?"

kbr · Mittwoch 16. Januar 2013, 12:44

Da die Eindeutigkeit wohl nicht immer gegeben ist, habe ich folgende ultimate Lösung, welche die Prüfung auf alle Sonderfälle erübrigt:

Code: Alles auswählen

def get_uppercases(sentence):
    words = [word for word in sentence.split() if word[0].isupper()]
    random.shuffle(words)
    return zip(words[::2], words[1::2])

jerch · Mittwoch 16. Januar 2013, 12:50

"Hat Walter von der Vogelweide die Beeren geklaut?" ist halt ohne Zusatzwissen unentscheidbar. Die Möglichkeiten könnte man ja zurückgeben lassen, nur düfte das Regelwerk für die ganzen Sonderfälle ziemlich groß sein.

cofi · Mittwoch 16. Januar 2013, 12:51

@EyDu, das stimmt, ich wollte aber noch den Fall mit Mittelnamen einbringen ... der blieb bisher komplett aussen vor.