jimmyjam hat geschrieben:gäbe es denn irgendeine möglichkeit so etwas zu realisieren? mir würde spontan ein gps koordinaten vergleich oder plz vergleich einfallen wenn man diese daten zu den orten gespeichert hätte. bin auch für weitere vorschläge offen, wie man einen ort eindeutig identifizieren könnte.
"identifizieren" ist das Zauberwort. Logisch betrachtet bilden Orte und Ortsnamen eine Paar-Relation (Ort, Ortsname). Ist die Relation eindeutig, sodass jeder Ort nur einen Namen hat, dann bildet sie eine Funktion f: Ort --> Ortsname. Diese ist injektiv, wg. der Eindeutigkeit und weil ein Name nur dann ein Ortsname ist, wenn ein Ort ihn hat. Was du aber brauchst, ist eine Zuordnung in der anderen Richtung, also eine surjektive Funktion g: T --> Ort, für irgendeine geeignete Menge T. GPS-Koordinaten oder Postleitzahlen würden wohl als T in Frage kommen. Das kann aber nur funktionieren, wenn diese Information in beiden Tabellen enthalten ist. Dann stellt sich allerdings die Frage, wozu man sich noch mit Ortsnamen herumschlagen soll? Statt dessen kann man einfach über die GPS-Koordinaten/PLZs joinen und den kanonischen Ortsnamen aus der ersten Tabelle verwenden. Ggf. muss man die join-Kriterien etwas lockern und nicht über identische Werte, sondern über Bereiche joinen, derart, dass die GPS-Koordiante/PLZ aus der zweiten Tabelle "nah genug" bei der aus der ersten Tabelle ist, um ein eindeutiges Ergebnis zu liefern.
Und selbst, wenn dir das alles nur hilft, um 95% der Daten zuzuordnen, dann wären das bei 40000 Datensätzen nur noch 2000 Datensätze, die man von Hand überprüfen müsste, eine Arbeit die ein motivierter Paraktikant in ein paar Tagen erledigen kann

In specifications, Murphy's Law supersedes Ohm's.