Applikation für Abfragen aus mehreren Datenbanken und Files
Verfasst: Sonntag 20. Dezember 2020, 17:00
Hi,
ich habe es mit einem Netzwerk zu tun, in dem verschiedene Daten in unterschiedlich R-DBs geschrieben werden. Einige dieser Daten werden in einem DWH aufbereitet.
Jetzt brauche ich aber für einige Modelle Daten aus allen Datenbanken, aus Files und aus sonstigen Quellen. Per SQL sind ja serverübergreifende joins schon sehr fies, bzw in den Maßen, in denen ich es bräuchte.
Ich könnte jetzt mit Python und in pandas die ganzen joins vollziehen und alle Daten derart aufbereiten, wie ich es bräuchte.
Meine Frage nun, ob das Sinn macht, oder ob man einen Schritt zurück geht und sagt, dass man an der Datenspeicherlandschaft etwas ändern sollte. Stichwort: Data Lake. Also wäre dieser Zustand schon groß genug, um ein Hadoop-Cluster aufzusetzen und die ganzen Daten dort in das HDFS zu ziehen, sodass über Hive ein "einfacherer" Zugriff stattfinden kann?
LG und danke
ich habe es mit einem Netzwerk zu tun, in dem verschiedene Daten in unterschiedlich R-DBs geschrieben werden. Einige dieser Daten werden in einem DWH aufbereitet.
Jetzt brauche ich aber für einige Modelle Daten aus allen Datenbanken, aus Files und aus sonstigen Quellen. Per SQL sind ja serverübergreifende joins schon sehr fies, bzw in den Maßen, in denen ich es bräuchte.
Ich könnte jetzt mit Python und in pandas die ganzen joins vollziehen und alle Daten derart aufbereiten, wie ich es bräuchte.
Meine Frage nun, ob das Sinn macht, oder ob man einen Schritt zurück geht und sagt, dass man an der Datenspeicherlandschaft etwas ändern sollte. Stichwort: Data Lake. Also wäre dieser Zustand schon groß genug, um ein Hadoop-Cluster aufzusetzen und die ganzen Daten dort in das HDFS zu ziehen, sodass über Hive ein "einfacherer" Zugriff stattfinden kann?
LG und danke