Numerical Python Cluster?

mit matplotlib, NumPy, pandas, SciPy, SymPy und weiteren mathematischen Programmbibliotheken.
Antworten
statssquirrel
User
Beiträge: 6
Registriert: Sonntag 19. November 2017, 15:36

Hallo!

Ich bin Statistiker. Ich möchte ein Startup gründen, dass Kunden statistische Beratung und methodisch topaktuelles statistisches Rechnen anbietet.

Daher denke ich über ein skalierbares numerisches Python (Numpy, Scipy, ...) Cluster auf Basis des AMD Ryzen Prozessors nach (ohne Intel Management Engine Backdoor ;-) )

Fragen:
1. Amd Ryzen Server Hardware (Rack Gehäuse) mit ECC.
2. Python Cluster Umgebung.
3. Python Umgebung für angemessene Parallel-Performance.

Danke
statssquirrel
__deets__
User
Beiträge: 14480
Registriert: Mittwoch 14. Oktober 2015, 14:29

Ich sehe da maximal zwei Fragen. Und wenn man’s genau nimmt keine so richtige. Ich habe aber ein paar Gedanken: dedizierte Hardware zu kaufen ist sowohl teuer als auch anstrengend. Sich das als Startup ans Bein zu binden, obwohl man nahezu beliebig in der cloud Skalieren kann halte ich für wenig sinnvoll. Insbesondere weil der ML Boom auch dazu führt, das zb GPU-starke VMs angemietet werden können.

Wer sich sorgen um die ME macht, aber gleichzeitig dir als Dienstleister vertraut, hat etwas nicht verstanden. Würde ich also gar nicht erst drauf abzielen.

So nett die AMDs sind (ich bekomme selbst einen auf Arbeit), so unsinnig ist es für eine Unternehmung wie deine auf so etwas zu bauen. In 2 Jahren sieht das Bild ganz anders aus, und dann solltest du kaufen was eben gerade the most bang for the buck bringt.

Letztlich definiert sich deine Dienstleistung sowohl in Beratung als auch Software, die du hast/schreibst/kaufst. Python ist da sicher eine gute Wahl. Was glaube ich eine deiner fragen beantwortet. Clusterlösungen kenne ich mich nicht mit aus. Da gibts sicher diverses. Auch da profitiert man bestimmt von cloud Angeboten.
__deets__
User
Beiträge: 14480
Registriert: Mittwoch 14. Oktober 2015, 14:29

Und das hier ist bestimmt hilfreich: https://www.anaconda.com/blog/developer ... -and-dask/
statssquirrel
User
Beiträge: 6
Registriert: Sonntag 19. November 2017, 15:36

__deets__ hat geschrieben:Ich sehe da maximal zwei Fragen. Und wenn man’s genau nimmt keine so richtige. Ich habe aber ein paar Gedanken: dedizierte Hardware zu kaufen ist sowohl teuer als auch anstrengend. Sich das als Startup ans Bein zu binden, obwohl man nahezu beliebig in der cloud Skalieren kann halte ich für wenig sinnvoll. Insbesondere weil der ML Boom auch dazu führt, das zb GPU-starke VMs angemietet werden können.
Wir haben keinen Fokus auf neuronale Netzen, die man mit GPUs besonders schnell auf single und half-precision rechnen könnte.
__deets__ hat geschrieben: Wer sich sorgen um die ME macht, aber gleichzeitig dir als Dienstleister vertraut, hat etwas nicht verstanden. Würde ich also gar nicht erst drauf abzielen.
ME :?: :?: :?:
__deets__
User
Beiträge: 14480
Registriert: Mittwoch 14. Oktober 2015, 14:29

Der Punkt war auch etwas allgemeiner gemeint als ausgedrueck: auch in der Cloud kann man rechenintensives abhandeln, statt sich Server-Hardware ans Bein zu binden.

ME ist die ManagementEngine. Wenn jemand davor Panik hat, aber seine Daten bei einem externen Dienstleister hostet, der hat ein verzerrtes Risikobewusstsein.
statssquirrel
User
Beiträge: 6
Registriert: Sonntag 19. November 2017, 15:36

Ne, die Management Engine Backdoor ist eher meine persönliche Panik.

Die NSA hatte ja bereits mit ihrem hardware eliptical random number generator auf den Intel Processoren versucht die verschlüsselung zu untergraben.

Deshalb gehe ich in meinem Worst-Case Planning davon aus, dass sie es nun auf andere Weise versuchen, z.B. über die Intel Management Engine.
__deets__
User
Beiträge: 14480
Registriert: Mittwoch 14. Oktober 2015, 14:29

Ich bezweifele das jemand der Intel dazu bringt, mittels der ME irgendwelchen Unfug zu treiben (vulgo: NSA) irgendwelche Probleme damit hat, sich Zugang zu deinen Systemen zu verschaffen. Insbesondere wo deine Dienstleistung so wie du sie hier praesenntierst vom Austausch von Daten mit Kundensystemen lebt. Du bist also nicht air-gapped, und hast irgendwelchen offenen Ports etc. Da wirst du bei entsprechendem Interesse schnell genug geowned.

Aber musst du wissen. Wenn du dir schoene 19"-racks hinstellen willst, mach das. Das hier in einem Python-Forum zu diskutieren ist allerdings eine eher ungewoehnliche Nummer.
statssquirrel
User
Beiträge: 6
Registriert: Sonntag 19. November 2017, 15:36

__deets__ hat geschrieben:Der Punkt war auch etwas allgemeiner gemeint als ausgedrueck: auch in der Cloud kann man rechenintensives abhandeln, statt sich Server-Hardware ans Bein zu binden.
Ich hatte bis vor kurzem so ein EC2 Abo bei Amazon. Nach ein paar Monaten war der Account gehackt und ich durfte blechen. Auf gar keinen Fall will ich meine Kernkompetenz auf einem Cloud Rechner.
Benutzeravatar
noisefloor
User
Beiträge: 3829
Registriert: Mittwoch 17. Oktober 2007, 21:40
Wohnort: WW
Kontaktdaten:

Hallo,

Numba und Dask wäre auch das, was mir eingefallen / bekannt wäre (habe es aber noch nicht genutzt).

Eine Alternative wäre vielleicht noch die Sprache Julia, die AFAIK OOTB auf Parallelisierung ausgelegt ist.

Gruß, noisefloor
statssquirrel
User
Beiträge: 6
Registriert: Sonntag 19. November 2017, 15:36

Danke für den Tip noisefloor.
Dask Scales from laptops to clusters

Dask is convenient on a laptop. It installs trivially with conda or pip and extends the size of convenient datasets from “fits in memory” to “fits on disk”.

Dask can scale to a cluster of 100s of machines. It is resilient, elastic, data local, and low latency. For more information see documentation on the distributed scheduler.
:D :D
Antworten