ETL -> SSIS vs. Python

mit matplotlib, NumPy, pandas, SciPy, SymPy und weiteren mathematischen Programmbibliotheken.
Antworten
naheliegend
User
Beiträge: 439
Registriert: Mittwoch 8. August 2018, 16:42

Hi,

im neuen Unternehmen haben wir die Data Tools von Microsoft für den Bau eines DWHs. Also einen SQL Server, SSIS, SSAS, usw.

Jetzt habe ich mir mal den Integrationsservice (SSIS) angeschaut und muss sagen, dass ich dieses Klicki-Bunti nicht mag. Total unübersichtlich.

Könnte man nicht auch ETL-Prozesse (Extract, Transform, Load) mit Python und sowas mit pandas umsetzen?
Hat da jemand Erfahrung?
Worauf muss man achten?

LG
__backjack__: "Jemand der VB oder PHP kann, der also was Programmieren angeht irgendwo im negativen Bereich liegt (...)"
nezzcarth
User
Beiträge: 1632
Registriert: Samstag 16. April 2011, 12:47

Von den genannten MS Produkten habe ich keine Ahnung. ETL-Pipelines für sich genommen kann man auch gut mit Python bauen. Dafür gibt es auch passende Frameworks wie Apache Airflow oder Luigi, mit denen man so etwas steuern und koordinieren. Mit Pandas hat der Teil jetzt erst einmal nichts direkt zu tun. Natürlich kann sich Pandas aber bei den konkreten Daten, um die es geht, gut für die eigentlichen Arbeitsschritte innerhalb der ETL-Pipeline eignen.
Antworten