Python und die Mammut-Liste
Verfasst: Dienstag 14. Februar 2023, 01:08
Ich habe vor, einen Python-Chatbot sämtliche in Deutschland vorkommende Namen als solche erkennen zu lassen, auch die seltenen wie "Aadat" zum Beispiel. Ich möchte sie erst einmal als Familiennamen kennzeichnen und das klappt auch, wenn die Liste eher klein bleibt, ohne Probleme. Da ich aber sämtliche in Deutschland vorkommenden Namen "einfangen" möchte, sind das 848000. Nun experimentiere ich schon den ganze Tag mit Groß- und Kleinschreibung, json etc. herum, aber nichts will funktionieren. Hat vielleicht von euch noch jemand eine Idee, was ich da machen könnte? Hier die noch funktionierende Liste, die noch direkt im Code steht. Davon muss ich weg, das ist schon mal klar. Aber welche Richtung schlage ich ein?
Code: Alles auswählen
lastname_words = ["Aaaken", "Aaanaskovic", "Aaarassi", "Aab", "Aabadi", "Aabam", "Aabaslama", "Aabbadi", "Aabbaz", "Aabdaoui", "Aabe", "Aabenhus", "Aabenraa", "Aaberg", "Aabjoe", "Aabo", "Aabol", "Aaboun", "Aach", "Aachbad", "Aachi", "Aachmann", "Aachtal", "Aachte", "Aacken", "Aackermann", "Aaclan", "Aad", "Aadama", "Aadat", "Aadda", "Aadel", "Aadil", "Aae", "Aaen", "Aaes", "Aafes", "Aaffane", "Aafkir", "Aagaard", "Aagard", "Aagardt", "Aagedal", "Aagesen", "Aagh", "Aagil", "Aagten", "Aahgui", "Aahi", "Aahlander", "Aahmady", "Aajaard", "Aajouch", "Aajour", "Aakcha", "Aakef", "Aakel", "Aaken", "Aakerlund", "Aakgöz", "Aakil", "Aakilde", "Aakmann", "Aakolk", "Aakrich", "Aakroti", "Aal", "Aalachi", "Aalai", "Aalali", "Aalam", "Aalami", "Aalaoui", "Aalbers", "Aalberts", "Aalbregtse", "Aalbrink", "Aalburg", "Aalden", "Aalderen", "Aaldering", "Aalderink", "Aalderks", "Aaldern", "Aalders", "Aaldijk", "Aalem", "Aalen", "Aalenburg", "Aalener", "Aaler", "Aalfeld", "Aalhof", "Aalhoul", "Aali", "Aalibrahim", "Aalili", "Aalimi", "Aaliu", "Aalkate", "Aalken", "Aall", "Aallachi", "Aalladui", "Aallali", "Aalmans", "Aalmink", "Aalpol", "Aalrep", "Aalrust", "Aalst", "Aalstede", "Aalten", "Aalto", "Aaltonen", "Aaltuiker", "Aalund", "Aalversuper", "Aalvlies", "Aamer", "Aami", "Aamir", "Aammari", "Aamold", "Aamot", "Aamouchi", "Aamran", "Aamraoui", "Aanam", "Aanau", "Aanbori", "Aandahl", "Aandekerk", "Aanderud", "Aanen", "Aanensen", "Aangaoui", "Aanhold", "Aanholt", "Aanouz", "Aans", "Aanstoot", "Aant", "Aaouali", "Aap", "Aapi", "Aar", "Aara", "Aarab", "Aarabi"]
text = input("Bitte geben Sie etwas ein, das ich auf deutsche Nachnamen untersuchen kann: ")
words = text.split()
for i, word in enumerate(words):
stripped_word = word.rstrip(".,!?")
if stripped_word in lastname_words:
words[i] = "lastname(" + stripped_word + ")"
new_text = " ".join(words)
print(new_text)