Multi-Core Prozessing

Leonidas · Montag 24. November 2008, 15:58

sma hat geschrieben:Übrigens, Leonidas, hast du einen Hinweis auf Green-Threads in Clojure?

Ok, wie ich nach einigem Suchen herausgefunden habe, meinte ich da Scala (was du auch schon angesprochen hast), sorry, mein Fehler. In Clojure läuft das nur über Threads. Allerdings sind Java Threads laut den Kommentaren auch nicht so das wahre. Immerhin habe ich noch eine interessante Concurrency-Debatte in einem anderen Blog gefunden, wo das auch noch etwas aufgerollt wird.

Du siehst ja selbst, dass Google auf Multiprozesse gegangen ist, die ebenfalls parallel laufen. Speicher zwischen Applikationen zu teilen ist auch kein neues Konzept. Aber deine Szenarios gehen eher auf wirklich große Anwendungsgebiete ein. Solcherlei Anwendungen wird es zwar in Zukunft mehr geben, aber nicht in dem Ausmaß. Das sind eben Sachen die auf großen und dicken Rechnern laufen die von einer Horde von Admins gepflegt haben und schon heutzutage mehr als 64 Kerne bieten (eigentlich sinds wohl eher Cluster).

Und ja, Stackless hat einen GIL (interessanterweise kursieren im Internet auch Behauptungen dass dies nicht der Fall sei). Aber es war auch die rede von einer "stackless" VM und keiner GIL-less VM.

burli · Montag 24. November 2008, 16:07

Hier wird jetzt irgendwie munter Threads und Prozesse gemischt. Threads gehören für mich zusammen auf einen Prozessor (Kern) und so wie ich das verstehe wäre es ja auch kein Problem davon mal 1000 Stück zu starten (ob das sinnvoll ist steht auf einem anderen Blatt).

Zumindest wäre das nach meinem Verständnis nach so zu verstehen. Ansonsten sähe ich keinen Sinn in der Trennung zwischen Thread und Prozess.

DasIch · Montag 24. November 2008, 16:09

burli hat geschrieben:[...]und so wie ich das verstehe wäre es ja auch kein Problem davon mal 1000 Stück zu starten (ob das sinnvoll ist steht auf einem anderen Blatt).

Ob du dass so siehst oder nicht interessiert die harte Realität aber nicht, da gehts nämlich nicht unbedingt.

burli · Montag 24. November 2008, 16:11

DasIch hat geschrieben: Ob du dass so siehst oder nicht interessiert die harte Realität aber nicht, da gehts nämlich nicht unbedingt.

Und warum nicht?

Leonidas · Montag 24. November 2008, 16:28

burli hat geschrieben:
DasIch hat geschrieben: Ob du dass so siehst oder nicht interessiert die harte Realität aber nicht, da gehts nämlich nicht unbedingt.
Und warum nicht?

Kann verschiedene Gründe haben, etwa dass du so viel Speicher gar nicht hast, der OS-Scheduler so ineffizient ist oder weil der Interpreter einen GIL hat.

Und das Prozesse auf einem Prozessor laufen stimmt so auch nicht. Im Thread werden sogar noch mehr Dinge gemischt: Green-Threads (Tasklets in Stackless, Prozesse in Erlang, Event-Basierte Actors in Scala), OS-Threads (die Threads die die JVM unterstützt oder der Python-Interpreter) und OS-Prozesse (jede VM ob nun Java, Python oder Erlang haben belegen einen Prozess).

DasIch · Montag 24. November 2008, 16:35

burli hat geschrieben:Und warum nicht?

Siehe smas ersten Post. 1 MB Speicher pro Thread macht bei 1000 Threads einen GB.

burli · Montag 24. November 2008, 16:39

Mag sein das 1000 Threads in Python nicht möglich sind.

Vielleicht hab ich ja auch ein anderes Verständnis von Threads und Prozessen. Für mich sind Prozesse eigenständig laufende Einheiten und Threads sehe ich im Wesentlichen als Untereinheit von Prozessen.

Vom Prinzip her sind sich beide ähnlich.

@DasIch: Für mich klang das nach einer hypothetischen Annahme, nicht nach einem Fakt. 1MB pro Thread ist definitiv zu hoch gegriffen

BlackJack · Montag 24. November 2008, 17:31

@burli: Threads sind nicht an einen Prozessor(kern) gebunden, sondern nur an einen Prozess. Ist jedenfalls bei Linux' POSIX-Threads so.

Und ich habe gerade mal nachgeschaut: Bei mir auf dem System (32-Bit) ist die voreingestellte Stapelgrösse pro Thread 8 MiB. Also deutlich mehr als 1 MiB. 1000 Threads könnte ich also ganz bestimmt nicht starten. Das sprengt nicht nur meinen Arbeitsspeicher, sondern auch den Adressraum eines Prozesses.

Und Python startet solche Systemthreads.

jens · Montag 24. November 2008, 17:45

BlackJack hat geschrieben:Letztlich bringt dieses rumlamentieren über das böse GIL nichts, solange nicht jemand eine neue Python-Implementierung schreibt, die ohne auskommt. Anpassen der aktuellen CPython-Implementierung geht nicht -- das wurde ja schon probiert und das Ergebnis war, das man dann soviel "lock"en muss, dass der Interpreter signifikant langsamer wäre.

Vielleicht bring PyPy da in Zukunft Abhilfe?

BlackJack · Montag 24. November 2008, 18:06

Vielleicht, aber so wie ich einige Beiträge in der englischsprachigen Newsgroup verstanden habe, ist das Ziel von PyPy gar nicht mal unbedingt einen Ersatz für CPython zu haben, sondern eher ein Forschungsprojekt. Das Ziel wäre also auch erreicht, wenn "nur" viele schöne Paper dabei heraus kommen und eine "proof of concept"-Implementierung.

Leonidas · Montag 24. November 2008, 20:20

Ich habe erst letztens von irgendwem gelesen, der CPython GIL-frei machen wollte, mit irgendeinem neuen Ansatz. Aber ich weiß nicht was daraus geworden ist/wird, vielleicht weiß jemand anderes da mehr...

Qubit · Montag 24. November 2008, 20:48

Leonidas hat geschrieben:Ich habe erst letztens von irgendwem gelesen, der CPython GIL-frei machen wollte, mit irgendeinem neuen Ansatz. Aber ich weiß nicht was daraus geworden ist/wird, vielleicht weiß jemand anderes da mehr...

Meinst du Adam Olsen?
http://code.google.com/p/python-safethr ... loads/list

Leonidas · Montag 24. November 2008, 21:04

Qubit hat geschrieben:Meinst du Adam Olsen?

Oh, ja, genau das war es. Andererseits wird er mit "However, the base (single-threaded) throughput is only around 60-65% that of normal CPython" wohl eher kaum demnächst sonderlich populär werden.

Wird auch im Python Concurrency Lighning Talk angesporochen und mit anderen Ansätzen verglichen.

sma · Dienstag 25. November 2008, 09:48

1MB Patch. Beeindruckend. Gibt es irgendwo eine genauere Erklärung, warum die Performance so einbricht? Die wesentliche geteilte Ressource ist doch der Programmcode sowie globals und builtins. Veränderbare dicts zu benutzen, wo man jetzt jeden lesenden (und schreibenden) Zugriff absichern muss, könnte der Grund sein.

Mein Versuch wäre, die Semantik von Python zu ändern. Zugriffe mit globals() und locals() sind zwar manchmal praktisch, aber wenn man diese Interna nicht aufdeckt, kann man andere Datenstrukturen benutzen und so z.B. pro Thread verwalten und direkt darauf zugreifen. Sollte man vielleicht sogar die module-dicts pro thread anlegen und nur die unveränderlichen function- und code-Objekte teilen?

Stefan

lunar · Dienstag 25. November 2008, 10:13

sma hat geschrieben:Sollte man vielleicht sogar die module-dicts pro thread anlegen und nur die unveränderlichen function- und code-Objekte teilen?

Und wie sollten Threads dann miteinander kommunizieren? Das setzt ja zumindest irgendein thread-übergreifendes Objekt voraus, wenn aber bereits die Namensräume selbst threadlokal sind, kann man ein solches Objekt gar nicht erzeugen.

sma · Dienstag 25. November 2008, 10:30

Man könnte das Prinzip von Erlang benutzen, wo sich prozesse asynchron Nachrichten schicken können. Alles was man dazu braucht, ist ein Process Handle und den bekommt der Vater, wenn er das Kind erzeugt. Jeder Prozess kennt außerdem sein eigenes Handle.

In Python z.B.

Code: Alles auswählen

child_pid = spawn(child_function)
send(child_pid, "hello from father", pid())

Zum Empfangen von Nachrichten sollte es dann aber noch ein neues Schlüsselwort geben, wenn das genauso wie bei Erlang funktionieren soll.

Eine andere Möglichkeit wäre, einem Thread bei der Erzeugung die zu teilenden Objekte explizit mitzugeben. Da wüsste man dann auch, dass dies threadsafe-Varianten von veränderbaren Datenstrukturen (sharedlist, shareddict, usw.) sein müssten.

Stefan

burli · Samstag 14. März 2009, 15:12

So, ich hab das Thema nochmal ausgegraben weil es mich doch interessiert. Eine einfache Möglichkeit, verschiedene Prozesse auf mehrere Cores zu verteilen ist eigentlich banal. Man startet einfach die Prozesse mit Subprocess.

Ja, ich weiß. das ist die Brechstangenmethode, die ihre eigenen Probleme aufwirft, aber ein erster Versuch ist vielversprechend. Ich hab das Mandelbrot Programm aus einem anderen Thread mal auf einem Atom330 (Dual Core mit Hyper Threading) ausgeführt. Einzeln brauch das Programm (mit psyco) 22 Sekunden. Startet man zwei gleichzeitig ändert sich daran nicht viel. Startet man vier brauchen sie jedoch fast 40 Sekunden.

Die Kommunikation könnte man über einen TCP/IP Stack, XML-RPC oder ähnliches realisieren.

Nur um das klar zu stellen: es geht mir im Moment nicht um echte parallele Programmierung sondern um die Ausnutzung der vorhandenen Ressourcen in bestimmten Anwendungsfällen. Mit der Methode kann man nicht alle Probleme lösen. Aber man kann rechenintensivere Aufgaben auf mehrere Prozessoren bzw Kerne verteilen.

DasIch · Samstag 14. März 2009, 17:05

@burli Die Kommunikation ist viel zu umständlich außerdem ist XMLRPC dumm.

lunar · Samstag 14. März 2009, 17:12

burli hat geschrieben:Ja, ich weiß. das ist die Brechstangenmethode, die ihre eigenen Probleme aufwirft, aber ein erster Versuch ist vielversprechend. Ich hab das Mandelbrot Programm aus einem anderen Thread mal auf einem Atom330 (Dual Core mit Hyper Threading) ausgeführt. Einzeln brauch das Programm (mit psyco) 22 Sekunden. Startet man zwei gleichzeitig ändert sich daran nicht viel. Startet man vier brauchen sie jedoch fast 40 Sekunden.

Das einzige, was du damit "bewiesen" hast, ist die Tatsache, dass der Scheduler des Betriebssystems Prozesse auf verfügbare Prozessoren verteilt. Weder ist das besonders atemberaubend, noch hat das einen näheren Bezug zu Python.

Die Kommunikation könnte man über einen TCP/IP Stack, XML-RPC oder ähnliches realisieren.

Das wiederum hätte Bezug zu Python, wird aber nur mit Allgemeinplätzen abgedeckt. Das man TCP/IP für IPC nutzen kann, weiß jeder, interessant ist nur, wie man das vernünftig umsetzt. XMLRPC ist übrigens ein ziemlich ungeeignetes Format für IPC bei rechenintensiven Prozessen, weil es sehr viel Overhead erzeugt.

burli · Samstag 14. März 2009, 17:13

Warum umständlich?

@Lunar: das ist mir schon klar. Es hat mit Python nicht direkt was zu tun. Mich hat einfach interessiert, wie es geht und vor allem wie gut.

Das XML-RPC nicht das geeignetste Format ist denke ich mir. Mit dem Teil habe ich mich noch nicht befasst und war nur eine Möglichkeit um die Idee zu demonstrieren