Hallo!
Ich bin Statistiker. Ich möchte ein Startup gründen, dass Kunden statistische Beratung und methodisch topaktuelles statistisches Rechnen anbietet.
Daher denke ich über ein skalierbares numerisches Python (Numpy, Scipy, ...) Cluster auf Basis des AMD Ryzen Prozessors nach (ohne Intel Management Engine Backdoor )
Fragen:
1. Amd Ryzen Server Hardware (Rack Gehäuse) mit ECC.
2. Python Cluster Umgebung.
3. Python Umgebung für angemessene Parallel-Performance.
Danke
statssquirrel
Numerical Python Cluster?
-
- User
- Beiträge: 6
- Registriert: Sonntag 19. November 2017, 15:36
@ AMD Ryzen Server Hardware (Rack Gehäuse)
Ist von denen hier
https://www.rect.coreto.de/rack-server/ ... kerne.html
http://www.server-konfigurieren.de/konf ... 2200-.html
https://www.rackmountpro.com/product/24 ... S-TR4.html
https://www.supermicro.com/products/nfo ... .cfm?pg=SS
was empfehlenswert?
Ist von denen hier
https://www.rect.coreto.de/rack-server/ ... kerne.html
http://www.server-konfigurieren.de/konf ... 2200-.html
https://www.rackmountpro.com/product/24 ... S-TR4.html
https://www.supermicro.com/products/nfo ... .cfm?pg=SS
was empfehlenswert?
Ich sehe da maximal zwei Fragen. Und wenn man’s genau nimmt keine so richtige. Ich habe aber ein paar Gedanken: dedizierte Hardware zu kaufen ist sowohl teuer als auch anstrengend. Sich das als Startup ans Bein zu binden, obwohl man nahezu beliebig in der cloud Skalieren kann halte ich für wenig sinnvoll. Insbesondere weil der ML Boom auch dazu führt, das zb GPU-starke VMs angemietet werden können.
Wer sich sorgen um die ME macht, aber gleichzeitig dir als Dienstleister vertraut, hat etwas nicht verstanden. Würde ich also gar nicht erst drauf abzielen.
So nett die AMDs sind (ich bekomme selbst einen auf Arbeit), so unsinnig ist es für eine Unternehmung wie deine auf so etwas zu bauen. In 2 Jahren sieht das Bild ganz anders aus, und dann solltest du kaufen was eben gerade the most bang for the buck bringt.
Letztlich definiert sich deine Dienstleistung sowohl in Beratung als auch Software, die du hast/schreibst/kaufst. Python ist da sicher eine gute Wahl. Was glaube ich eine deiner fragen beantwortet. Clusterlösungen kenne ich mich nicht mit aus. Da gibts sicher diverses. Auch da profitiert man bestimmt von cloud Angeboten.
Wer sich sorgen um die ME macht, aber gleichzeitig dir als Dienstleister vertraut, hat etwas nicht verstanden. Würde ich also gar nicht erst drauf abzielen.
So nett die AMDs sind (ich bekomme selbst einen auf Arbeit), so unsinnig ist es für eine Unternehmung wie deine auf so etwas zu bauen. In 2 Jahren sieht das Bild ganz anders aus, und dann solltest du kaufen was eben gerade the most bang for the buck bringt.
Letztlich definiert sich deine Dienstleistung sowohl in Beratung als auch Software, die du hast/schreibst/kaufst. Python ist da sicher eine gute Wahl. Was glaube ich eine deiner fragen beantwortet. Clusterlösungen kenne ich mich nicht mit aus. Da gibts sicher diverses. Auch da profitiert man bestimmt von cloud Angeboten.
Und das hier ist bestimmt hilfreich: https://www.anaconda.com/blog/developer ... -and-dask/
-
- User
- Beiträge: 6
- Registriert: Sonntag 19. November 2017, 15:36
Wir haben keinen Fokus auf neuronale Netzen, die man mit GPUs besonders schnell auf single und half-precision rechnen könnte.__deets__ hat geschrieben:Ich sehe da maximal zwei Fragen. Und wenn man’s genau nimmt keine so richtige. Ich habe aber ein paar Gedanken: dedizierte Hardware zu kaufen ist sowohl teuer als auch anstrengend. Sich das als Startup ans Bein zu binden, obwohl man nahezu beliebig in der cloud Skalieren kann halte ich für wenig sinnvoll. Insbesondere weil der ML Boom auch dazu führt, das zb GPU-starke VMs angemietet werden können.
ME__deets__ hat geschrieben: Wer sich sorgen um die ME macht, aber gleichzeitig dir als Dienstleister vertraut, hat etwas nicht verstanden. Würde ich also gar nicht erst drauf abzielen.
Der Punkt war auch etwas allgemeiner gemeint als ausgedrueck: auch in der Cloud kann man rechenintensives abhandeln, statt sich Server-Hardware ans Bein zu binden.
ME ist die ManagementEngine. Wenn jemand davor Panik hat, aber seine Daten bei einem externen Dienstleister hostet, der hat ein verzerrtes Risikobewusstsein.
ME ist die ManagementEngine. Wenn jemand davor Panik hat, aber seine Daten bei einem externen Dienstleister hostet, der hat ein verzerrtes Risikobewusstsein.
-
- User
- Beiträge: 6
- Registriert: Sonntag 19. November 2017, 15:36
Ne, die Management Engine Backdoor ist eher meine persönliche Panik.
Die NSA hatte ja bereits mit ihrem hardware eliptical random number generator auf den Intel Processoren versucht die verschlüsselung zu untergraben.
Deshalb gehe ich in meinem Worst-Case Planning davon aus, dass sie es nun auf andere Weise versuchen, z.B. über die Intel Management Engine.
Die NSA hatte ja bereits mit ihrem hardware eliptical random number generator auf den Intel Processoren versucht die verschlüsselung zu untergraben.
Deshalb gehe ich in meinem Worst-Case Planning davon aus, dass sie es nun auf andere Weise versuchen, z.B. über die Intel Management Engine.
Ich bezweifele das jemand der Intel dazu bringt, mittels der ME irgendwelchen Unfug zu treiben (vulgo: NSA) irgendwelche Probleme damit hat, sich Zugang zu deinen Systemen zu verschaffen. Insbesondere wo deine Dienstleistung so wie du sie hier praesenntierst vom Austausch von Daten mit Kundensystemen lebt. Du bist also nicht air-gapped, und hast irgendwelchen offenen Ports etc. Da wirst du bei entsprechendem Interesse schnell genug geowned.
Aber musst du wissen. Wenn du dir schoene 19"-racks hinstellen willst, mach das. Das hier in einem Python-Forum zu diskutieren ist allerdings eine eher ungewoehnliche Nummer.
Aber musst du wissen. Wenn du dir schoene 19"-racks hinstellen willst, mach das. Das hier in einem Python-Forum zu diskutieren ist allerdings eine eher ungewoehnliche Nummer.
-
- User
- Beiträge: 6
- Registriert: Sonntag 19. November 2017, 15:36
Ich hatte bis vor kurzem so ein EC2 Abo bei Amazon. Nach ein paar Monaten war der Account gehackt und ich durfte blechen. Auf gar keinen Fall will ich meine Kernkompetenz auf einem Cloud Rechner.__deets__ hat geschrieben:Der Punkt war auch etwas allgemeiner gemeint als ausgedrueck: auch in der Cloud kann man rechenintensives abhandeln, statt sich Server-Hardware ans Bein zu binden.
- noisefloor
- User
- Beiträge: 3843
- Registriert: Mittwoch 17. Oktober 2007, 21:40
- Wohnort: WW
- Kontaktdaten:
Hallo,
Numba und Dask wäre auch das, was mir eingefallen / bekannt wäre (habe es aber noch nicht genutzt).
Eine Alternative wäre vielleicht noch die Sprache Julia, die AFAIK OOTB auf Parallelisierung ausgelegt ist.
Gruß, noisefloor
Numba und Dask wäre auch das, was mir eingefallen / bekannt wäre (habe es aber noch nicht genutzt).
Eine Alternative wäre vielleicht noch die Sprache Julia, die AFAIK OOTB auf Parallelisierung ausgelegt ist.
Gruß, noisefloor
-
- User
- Beiträge: 6
- Registriert: Sonntag 19. November 2017, 15:36
Danke für den Tip noisefloor.
Dask Scales from laptops to clusters
Dask is convenient on a laptop. It installs trivially with conda or pip and extends the size of convenient datasets from “fits in memory” to “fits on disk”.
Dask can scale to a cluster of 100s of machines. It is resilient, elastic, data local, and low latency. For more information see documentation on the distributed scheduler.