Applikation für Abfragen aus mehreren Datenbanken und Files

naheliegend · Sonntag 20. Dezember 2020, 17:00

Hi,

ich habe es mit einem Netzwerk zu tun, in dem verschiedene Daten in unterschiedlich R-DBs geschrieben werden. Einige dieser Daten werden in einem DWH aufbereitet.

Jetzt brauche ich aber für einige Modelle Daten aus allen Datenbanken, aus Files und aus sonstigen Quellen. Per SQL sind ja serverübergreifende joins schon sehr fies, bzw in den Maßen, in denen ich es bräuchte.

Ich könnte jetzt mit Python und in pandas die ganzen joins vollziehen und alle Daten derart aufbereiten, wie ich es bräuchte.

Meine Frage nun, ob das Sinn macht, oder ob man einen Schritt zurück geht und sagt, dass man an der Datenspeicherlandschaft etwas ändern sollte. Stichwort: Data Lake. Also wäre dieser Zustand schon groß genug, um ein Hadoop-Cluster aufzusetzen und die ganzen Daten dort in das HDFS zu ziehen, sodass über Hive ein "einfacherer" Zugriff stattfinden kann?

LG und danke

noisefloor · Montag 21. Dezember 2020, 09:06

Hallo,

die Frage kann dir letztendlich keiner beantworten außer du selber. Deine ganzen Angaben sind ja relativ vage und "dünn" und niemand hier außer dir kennt die Datenmenge, die Komplexität der Daten und die Datenquellen.
Da niemand die Daten kennt ist es auch schwer zu sagen, ob jetzt eine schweres Geschütz wie Hadoop notwendig ist oder vielleicht Apache Cassandra besser ist oder das nicht doch auch gut mit einem RDBMS wie z.B. PostgreSQL oder SQLServer geht. Es ist ja nicht so, dass nicht auch die "großen" RDBMS nicht auch mit großen / komplexen Datenmengen umgehen könnten.

Wenn das ganze aber noch (problemlos?) mit Pandas geht und du der Meinung bist, dass das in Zukunft auch weiter mit skaliert, wäre das meine Präferenz. Hadoop und die darunterliegende Infrastruktur aufzusetzen ist ja auch ein erheblicher administrativer Aufwand.

Gruß, noisefloor