'Realtime'-Verarbeitung von vielen Daten an stdout/stderr

Humbalan · Mittwoch 2. September 2009, 16:10

Hallo,

ich starte in einem Python-Programm einen Prozess mit subprocess.Popen(), der einen läger dauernden Befehl mit vielen Ausgaben an stdout bzw. stderr ausführt (konkret: es handelt sich um einen Befehl eines Tools zur Versionsverwaltung. Er labelt auf einem Server ca. 30000 Dateien. Bei jedem Einzelschritt gibt es eine Ausgabe an stdout "<File> der Version <Version> wurde mit Label <Label> versehen". Evtl. Fehler gehen an stderr). Die Abarbeitung dieses Befehls dauert ca. 10 Min.

Mein Problem: ich möchte die anfallenden Daten 'online' verarbeiten, ohne das Ende des Prozesses abzuwarten. Verarbeiten heißt hier jede Ausgabe des laufenden Prozesses untersuchen, ob bestimmte Bedingungen erfüllt sind (und evtl. auf Fehler reagieren), umformatieren, ein Logging erzeugen und in einer Datei speichern.

Ich habe schon im www und auf diesem Forum gesucht, aber keine Antwort gefunden, wit der ich wirklich etwas anfangen kann.

Kann jemand helfen?
Ich arbeite unter WinXP mit Python 2.6 und wxPxyhton 2.8
Danke im Voraus

lunar · Mittwoch 2. September 2009, 16:52

Du kannst in jedem Fall immer über das `stdout`-Attribut iterieren, um Daten zeilenweise abzuarbeiten:

Code: Alles auswählen

process = Popen(command, stdout=PIPE)
for line in process.stdout:
    do_something_with(line)

Ob die Daten allerdings auch zeilenweise ankommen, hängt von den Puffer-Einstellungen des aufgerufenen Programms ab. Ich kenne mich mit XP nicht aus, unter Unix allerdings schalten die meisten Programm ihre Pufferung um, und senden geschlossen größere Datenblöcke anstatt einzelner Zeilen, wenn sie erkennen, dass stdout eine Pipe ist.

Humbalan · Mittwoch 2. September 2009, 17:19

Danke lunar für die schnelle Antwort. Habs gleich ausprobiert:

Code: Alles auswählen

process = subprocess.Popen ( myCmd, stderr=subprocess.STDOUT )
process.communicate()
for line in process.stdout :
    print "bla = ",line

... und erhalte folgende Fehlermeldung:

for line in process.stdout :
TypeError: 'NoneType' object is not iterable

Das "bla =" ... dient nur dazu, meine Ausgaben von den stdout-Ausgaben zu unterscheiden.

Was mache ich falsch?

cofi · Mittwoch 2. September 2009, 17:48

Dir ist klar, dass sich dein ``Popen``-Aufruf komplett von lunars unterscheidet?

Humbalan · Donnerstag 3. September 2009, 07:13

cofi hat geschrieben:Dir ist klar, dass sich dein ``Popen``-Aufruf komplett von lunars unterscheidet?

Oh Mist, das seh ich erst jetzt nach Deinem Hinweis!

Hab das jetzt in mein Programm so eingebaut, läuft prima. Vielen Dank für die Hilfe

.

borgus · Montag 21. September 2009, 15:24

hi! irgendwie hab' ich so immer noch das problem, dass der child-prozess
erst beendet wird und ich dann die ausgabe des prozesses auswerten kann..

folgendes szenario:

"meinAusgabeProgramm":

Code: Alles auswählen

from time import sleep

for i in range(0, 10):
print "schnarch: %d" % i
sleep(1)

lesescript:

Code: Alles auswählen

import subprocess

prozess = subprocess.Popen(meinAusgabeProgramm, stdout=subprocess.PIPE)

for line in prozesss.stdout:
print "---> " + line

wenn ich jetzt das lesescript starte, läuft "meinAusgabeProgramm" erst
komplett durch und dann wird auf einen schlag alles ausgegeben. wieso?
(winXP, python2.5)

hoffe, die frame ist jetzt nicht zu blöd....

lunar · Montag 21. September 2009, 15:32

Die Einrückung Deiner Beispiele stimmt nicht. Prüfe bitte die Vorschau, bevor Du Deine Beiträge absendest.

Dein Problem ist die Pufferung. Die Ausgabe kommt bei Python nicht sofort an, sondern wird aus Performance-Gründen vom System zwischengespeichert. Auf der Konsole geschieht das zeilenweise, damit der Nutzer eben sofort alles sehen kann. Bei einer Pipe (also dem Aufruf als Unterprogramm) dagegen puffert das System größere Blöcke, damit das aufgerufene Programm schneller laufen kann. Deswegen werden die Daten in Deinem Fall letztlich auch blockweise ausgegeben.

Mit subprocess lässt sich das nicht vermeiden, da das aufgerufene Programm selbst bestimmt, wie der Puffer aussieht. Vielleicht aber hast Du Glück, einige Programme haben spezielle Optionen, um die Pufferung anzugeben.

Defnull · Montag 21. September 2009, 15:38

Weil, wie schon erwähnt, die meisten Programme ihre Ausgabe puffern. Wenn dein Programm keinen "line buffered"-Modus anbietet, hast du auch wenig Chancen, daran etwas zu ändern.

borgus · Montag 21. September 2009, 15:59

ahh. danke für die schnellen antworten!

Bitzkit · Freitag 13. November 2009, 07:47

Hi,

habe ein ähnliches Problem unter Linux.

Schicke einen Job mit Hilfe von "qsub" ab und versuche die JobID über den stdout herauszubekommen und dem Benutzer anzuzeigen. Das funktioniert auch soweit, nur sobald ich "-sync yes" angebe erhalte ich die Ausgabe erst, wenn das Programm beendet wurde.

Gibt es da eine andere Möglichkeit ? An sys.stdout wird die Ausgabe sofort weitergeleitet, bei einer PIPE habe ich wohl das oben genannte Problem.

Ansonsten werde ich es wohl mit einem Shellscript versuchen müssen.
Edit: Bei einem Shellscript habe ich wohl das gleiche Problem

BlackJack · Freitag 13. November 2009, 08:25

@Bitzkit: Das `pexpect`-Modul (nicht in der Standardbibliothek) könnte eventuell eine Lösung sein.

Bitzkit · Freitag 13. November 2009, 11:22

Habe es mal mit pexpect versucht.

Code: Alles auswählen

process = pexpect.spawn("qsub %s" % (os.path.join(path, "cmd")))
a = process.readline()
print a

Damit erhalte ich die Ausgabe leider auch erst, sobald das Programm beendet wurde. Das Modul scheint aber auch recht komplex. An welche Methode hattest du gedacht ?

Schon mal danke.