Fehlermeldung

Wenn du dir nicht sicher bist, in welchem der anderen Foren du die Frage stellen sollst, dann bist du hier im Forum für allgemeine Fragen sicher richtig.
Romaxx
User
Beiträge: 62
Registriert: Donnerstag 26. Januar 2017, 18:53

Sonntag 12. Februar 2017, 15:36

Hallo zusammen,

ich bekomme folgenden Fehler:

Code: Alles auswählen

 File "C:\Program Files\Anaconda2\lib\site-packages\spyder\utils\site\sitecustomize.py", line 888, in debugfile
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
    debugger.run("runfile(%r, args=%r, wdir=%r)" % (filename, args, wdir))
  File "C:\Program Files\Anaconda2\lib\bdb.py", line 400, in run
    exec cmd in globals, locals
  File "<string>", line 1, in <module>
  File "C:\Program Files\Anaconda2\lib\site-packages\spyder\utils\site\sitecustomize.py", line 866, in runfile
    execfile(filename, namespace)
  File "C:\Program Files\Anaconda2\lib\site-packages\spyder\utils\site\sitecustomize.py", line 87, in execfile
    exec(compile(scripttext, filename, 'exec'), glob, loc)
  File "c:/users/flo9fe/desktop/vssgp_lvm/vssgp_example.py", line 50, in <module>
    options={'ftol': 0, 'disp': False, 'maxiter': 500}, tol=0, callback=vssgp_opt.callback)
  File "C:\Program Files\Anaconda2\lib\site-packages\scipy\optimize\_minimize.py", line 450, in minimize
    callback=callback, **options)
  File "C:\Program Files\Anaconda2\lib\site-packages\scipy\optimize\lbfgsb.py", line 328, in _minimize_lbfgsb
    f, g = func_and_grad(x)
  File "C:\Program Files\Anaconda2\lib\site-packages\scipy\optimize\lbfgsb.py", line 278, in func_and_grad
    f = fun(x, *args)
  File "C:\Program Files\Anaconda2\lib\site-packages\scipy\optimize\optimize.py", line 292, in function_wrapper
    return function(*(wrapper_args + args))
  File "vssgp_opt.py", line 53, in func
    LL = sum(pool.map_async(eval_f_LL, arguments).get(9999999))
AttributeError: 'NoneType' object has no attribute 'map_async
Die entsprechende Funktion und der Fehler sind in Zeile 53 zu finden:

Code: Alles auswählen

import numpy as np
from vssgp_model import VSSGP
import pylab
import multiprocessing
def extend(x, y, z = {}):
    return dict(x.items() + y.items() + z.items())
pool, global_f, global_g = None, None, None
def eval_f_LL(X, Y, params):
    return global_f['LL'](**extend({'X': X, 'Y': Y}, params))
def eval_g_LL(name, X, Y, params):
    return global_g[name]['LL'](**extend({'X': X, 'Y': Y}, params))

class VSSGP_opt():
    def __init__(self, N, Q, D, K, inputs, opt_params, fixed_params, use_exact_A = False, test_set = {},
                 parallel = False, batch_size = None, components = None, print_interval = None):
        self.vssgp, self.N, self.Q, self.K, self.fixed_params = VSSGP(use_exact_A), N, Q, K, fixed_params
        self.use_exact_A, self.parallel, self.batch_size = use_exact_A, parallel, batch_size
        self.inputs, self.test_set = inputs, test_set
        self.print_interval = 10 if print_interval is None else print_interval
        self.opt_param_names = [n for n,_ in opt_params.iteritems()]
        opt_param_values = [np.atleast_2d(opt_params[n]) for n in self.opt_param_names]
        self.shapes = [v.shape for v in opt_param_values]
        self.sizes = [sum([np.prod(x) for x in self.shapes[:i]]) for i in xrange(len(self.shapes)+1)]
        self.components = opt_params['lSigma'].shape[2] if components is None else components
        self.colours = [np.random.rand(3,1) for c in xrange(self.components)]
        self.callback_counter = [0]
        if batch_size is not None:
            if parallel:
                global pool, global_f, global_g
                global_f, global_g = self.vssgp.f, self.vssgp.g
                if __name__ == '__main__':
                    pool = multiprocessing.Pool(int(self.N / self.batch_size))
            else:
                self.params = np.concatenate([v.flatten() for v in opt_param_values])
                self.param_updates = np.zeros_like(self.params)
                self.moving_mean_squared = np.zeros_like(self.params)
                self.learning_rates = 1e-2*np.ones_like(self.params)


    def unpack(self, x):
        x_param_values = [x[self.sizes[i-1]:self.sizes[i]].reshape(self.shapes[i-1]) for i in xrange(1,len(self.shapes)+1)]
        params = {n:v for (n,v) in zip(self.opt_param_names, x_param_values)}
        if 'ltau' in params:
            params['ltau'] = params['ltau'].squeeze()
        return params

    def func(self, x):
        params = extend(self.fixed_params, self.unpack(x))
        if self.batch_size is not None:
            X, Y, splits = self.inputs['X'], self.inputs['Y'], int(self.N / self.batch_size)
            if self.parallel:
                arguments = [(X[i::splits], Y[i::splits], params) for i in xrange(splits)]
                LL = sum(pool.map_async(eval_f_LL, arguments).get(9999999))
                KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
            else:
                split = np.random.randint(splits)
                LL = self.N / self.batch_size * self.vssgp.f['LL'](**extend({'X': X[split::splits], 'Y': Y[split::splits]}, params))
                print(LL)
                KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
        else:
            params = extend(self.inputs, params)
            LL, KL = self.vssgp.f['LL'](**params), self.vssgp.f['KL'](**params)
        return -(LL - KL)
Was ist hier nicht richtig?
BlackJack

Sonntag 12. Februar 2017, 16:09

@Romaxx: Die Verwendung von globalen Variablen ist nicht richtig. Wenn Du das Schlüsselwort ``global`` verwendest, machst Du in 99,9999% der Fälle etwas falsches.

Den ``if __name__ == '__main__':``-Test habe ich noch nie irgendwo tief in einer Funktion gesehen. Das solltest Du sein lassen. Die Funktionen/Methoden eines Moduls sollten sich gleich verhalten, egal ob das Modul importiert oder als Programm ausgeführt wird. Sonst wird Testen lustig, weil es sich dann bei Tests ja anders verhält als beim Ausführen.
Romaxx
User
Beiträge: 62
Registriert: Donnerstag 26. Januar 2017, 18:53

Sonntag 12. Februar 2017, 16:47

Hallo,

danke für deine Anwort.

Ich habe nun folgendes gemacht:

[codebox=python file=Unbenannt.txt]import numpy as np
from vssgp_model import VSSGP
import pylab
import multiprocessing
def extend(x, y, z = {}):
return dict(x.items() + y.items() + z.items())
pool, global_f, global_g = None, None, None
def eval_f_LL(X, Y, params):
return global_f['LL'](**extend({'X': X, 'Y': Y}, params))
def eval_g_LL(name, X, Y, params):
return global_g[name]['LL'](**extend({'X': X, 'Y': Y}, params))

class VSSGP_opt():
def __init__(self, N, Q, D, K, inputs, opt_params, fixed_params, use_exact_A = False, test_set = {},
parallel = False, batch_size = None, components = None, print_interval = None):
self.vssgp, self.N, self.Q, self.K, self.fixed_params = VSSGP(use_exact_A), N, Q, K, fixed_params
self.use_exact_A, self.parallel, self.batch_size = use_exact_A, parallel, batch_size
self.inputs, self.test_set = inputs, test_set
self.print_interval = 10 if print_interval is None else print_interval
self.opt_param_names = [n for n,_ in opt_params.iteritems()]
opt_param_values = [np.atleast_2d(opt_params[n]) for n in self.opt_param_names]
self.shapes = [v.shape for v in opt_param_values]
self.sizes = [sum([np.prod(x) for x in self.shapes[:i]]) for i in xrange(len(self.shapes)+1)]
self.components = opt_params['lSigma'].shape[2] if components is None else components
self.colours = [np.random.rand(3,1) for c in xrange(self.components)]
self.callback_counter = [0]
if batch_size is not None:
if parallel:
self.pool = multiprocessing.Pool(int(self.N / self.batch_size))
else:
self.params = np.concatenate([v.flatten() for v in opt_param_values])
self.param_updates = np.zeros_like(self.params)
self.moving_mean_squared = np.zeros_like(self.params)
self.learning_rates = 1e-2*np.ones_like(self.params)


def unpack(self, x):
x_param_values = [x[self.sizes[i-1]:self.sizes].reshape(self.shapes[i-1]) for i in xrange(1,len(self.shapes)+1)]
params = {n:v for (n,v) in zip(self.opt_param_names, x_param_values)}
if 'ltau' in params:
params['ltau'] = params['ltau'].squeeze()
return params

def func(self, x):
params = extend(self.fixed_params, self.unpack(x))
if self.batch_size is not None:
X, Y, splits = self.inputs['X'], self.inputs['Y'], int(self.N / self.batch_size)
if self.parallel:
arguments = [(X[i::splits], Y[i::splits], params) for i in xrange(splits)]
LL = sum(self.pool.map_async(eval_f_LL, arguments).get(9999999))
KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
split = np.random.randint(splits)
LL = self.N / self.batch_size * self.vssgp.f['LL'](**extend({'X': X[split::splits], 'Y': Y[split::splits]}, params))
print(LL)
KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
params = extend(self.inputs, params)
LL, KL = self.vssgp.f['LL'](**params), self.vssgp.f['KL'](**params)
return -(LL - KL)[/code]

Und erhalte diesen Fehler:

Code: Alles auswählen

RuntimeError: 
            Attempt to start a new process before the current process
            has finished its bootstrapping phase.

            This probably means that you are on Windows and you have
            forgotten to use the proper idiom in the main module:

                if __name__ == '__main__':
                    freeze_support()
                    ...

            The "freeze_support()" line can be omitted if the program
            is not going to be frozen to produce a Windows executable.
Wenn ich

[codebox=pycon file=Unbenannt.txt] if __name__ == '__main__':
[/code]

an besagte Stelle wieder einfüge, erhalte ich:

Code: Alles auswählen

File "C:\Program Files\Anaconda2\lib\site-packages\spyder\utils\site\sitecustomize.py", line 888, in debugfile
    debugger.run("runfile(%r, args=%r, wdir=%r)" % (filename, args, wdir))
  File "C:\Program Files\Anaconda2\lib\bdb.py", line 400, in run
    exec cmd in globals, locals
  File "<string>", line 1, in <module>
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>


  File "C:\Program Files\Anaconda2\lib\site-packages\spyder\utils\site\sitecustomize.py", line 866, in runfile
    execfile(filename, namespace)
  File "C:\Program Files\Anaconda2\lib\site-packages\spyder\utils\site\sitecustomize.py", line 87, in execfile
    exec(compile(scripttext, filename, 'exec'), glob, loc)
  File "c:/users/flo9fe/desktop/vssgp_lvm/vssgp_example.py", line 50, in <module>
    options={'ftol': 0, 'disp': False, 'maxiter': 500}, tol=0, callback=vssgp_opt.callback)
  File "C:\Program Files\Anaconda2\lib\site-packages\scipy\optimize\_minimize.py", line 450, in minimize
    callback=callback, **options)
  File "C:\Program Files\Anaconda2\lib\site-packages\scipy\optimize\lbfgsb.py", line 328, in _minimize_lbfgsb
    f, g = func_and_grad(x)
  File "C:\Program Files\Anaconda2\lib\site-packages\scipy\optimize\lbfgsb.py", line 278, in func_and_grad
    f = fun(x, *args)
  File "C:\Program Files\Anaconda2\lib\site-packages\scipy\optimize\optimize.py", line 292, in function_wrapper
    return function(*(wrapper_args + args))
  File "vssgp_opt.py", line 52, in func
    LL = sum(self.pool.map_async(eval_f_LL, arguments).get(9999999))
AttributeError: VSSGP_opt instance has no attribute 'pool'
BlackJack

Sonntag 12. Februar 2017, 17:03

@Romaxx: Was ist ”besagte” Stelle? Ausserdem verwendest Du immer noch globale Datenstrukturen, die es in den anderen Prozessen nicht geben wird.
Romaxx
User
Beiträge: 62
Registriert: Donnerstag 26. Januar 2017, 18:53

Sonntag 12. Februar 2017, 17:26

Entschuldige die Ungenauigkeit.
Ich meine

[codebox=python file=Unbenannt.txt]if __name__ == '__main__':[/code]

in Zeile 28/29 wieder eingefügt.

Ich habe nun mein File zu folgendem geändert:

[codebox=python file=Unbenannt.txt]import numpy as np
from vssgp_model import VSSGP
import pylab
import multiprocessing
def extend(x, y, z = {}):
return dict(x.items() + y.items() + z.items())
def eval_f_LL(X, Y, params):
return VSSGP.f['LL'](**extend({'X': X, 'Y': Y}, params))
def eval_g_LL(name, X, Y, params):
return VSSGP.g[name]['LL'](**extend({'X': X, 'Y': Y}, params))

class VSSGP_opt():
def __init__(self, N, Q, D, K, inputs, opt_params, fixed_params, use_exact_A = False, test_set = {},
parallel = False, batch_size = None, components = None, print_interval = None):
self.vssgp, self.N, self.Q, self.K, self.fixed_params = VSSGP(use_exact_A), N, Q, K, fixed_params
self.use_exact_A, self.parallel, self.batch_size = use_exact_A, parallel, batch_size
self.inputs, self.test_set = inputs, test_set
self.print_interval = 10 if print_interval is None else print_interval
self.opt_param_names = [n for n,_ in opt_params.iteritems()]
opt_param_values = [np.atleast_2d(opt_params[n]) for n in self.opt_param_names]
self.shapes = [v.shape for v in opt_param_values]
self.sizes = [sum([np.prod(x) for x in self.shapes[:i]]) for i in xrange(len(self.shapes)+1)]
self.components = opt_params['lSigma'].shape[2] if components is None else components
self.colours = [np.random.rand(3,1) for c in xrange(self.components)]
self.callback_counter = [0]
if batch_size is not None:
if parallel:
self.pool = multiprocessing.Pool(int(self.N / self.batch_size))
else:
self.params = np.concatenate([v.flatten() for v in opt_param_values])
self.param_updates = np.zeros_like(self.params)
self.moving_mean_squared = np.zeros_like(self.params)
self.learning_rates = 1e-2*np.ones_like(self.params)


def unpack(self, x):
x_param_values = [x[self.sizes[i-1]:self.sizes].reshape(self.shapes[i-1]) for i in xrange(1,len(self.shapes)+1)]
params = {n:v for (n,v) in zip(self.opt_param_names, x_param_values)}
if 'ltau' in params:
params['ltau'] = params['ltau'].squeeze()
return params

def func(self, x):
params = extend(self.fixed_params, self.unpack(x))
if self.batch_size is not None:
X, Y, splits = self.inputs['X'], self.inputs['Y'], int(self.N / self.batch_size)
if self.parallel:
arguments = [(X[i::splits], Y[i::splits], params) for i in xrange(splits)]
LL = sum(self.pool.map_async(eval_f_LL, arguments).get(9999999))
KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
split = np.random.randint(splits)
LL = self.N / self.batch_size * self.vssgp.f['LL'](**extend({'X': X[split::splits], 'Y': Y[split::splits]}, params))
print(LL)
KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
params = extend(self.inputs, params)
LL, KL = self.vssgp.f['LL'](**params), self.vssgp.f['KL'](**params)
return -(LL - KL)[/code]

Ich bekomme aber ohne

[codebox=python file=Unbenannt.txt]if __name__ == '__main__':[/code]

in 28/29 wieder den Fehler

Code: Alles auswählen

RuntimeError:
            Attempt to start a new process before the current process
            has finished its bootstrapping phase.

            This probably means that you are on Windows and you have
            forgotten to use the proper idiom in the main module:

                if __name__ == '__main__':
                    freeze_support()
                    ...

            The "freeze_support()" line can be omitted if the program
            is not going to be frozen to produce a Windows executable.
und mit

Code: Alles auswählen

File "C:\Program Files\Anaconda2\lib\site-packages\spyder\utils\site\sitecustomize.py", line 888, in debugfile
    debugger.run("runfile(%r, args=%r, wdir=%r)" % (filename, args, wdir))
  File "C:\Program Files\Anaconda2\lib\bdb.py", line 400, in run
    exec cmd in globals, locals
  File "<string>", line 1, in <module>
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>


  File "C:\Program Files\Anaconda2\lib\site-packages\spyder\utils\site\sitecustomize.py", line 866, in runfile
    execfile(filename, namespace)
  File "C:\Program Files\Anaconda2\lib\site-packages\spyder\utils\site\sitecustomize.py", line 87, in execfile
    exec(compile(scripttext, filename, 'exec'), glob, loc)
  File "c:/users/flo9fe/desktop/vssgp_lvm/vssgp_example.py", line 50, in <module>
    options={'ftol': 0, 'disp': False, 'maxiter': 500}, tol=0, callback=vssgp_opt.callback)
  File "C:\Program Files\Anaconda2\lib\site-packages\scipy\optimize\_minimize.py", line 450, in minimize
    callback=callback, **options)
  File "C:\Program Files\Anaconda2\lib\site-packages\scipy\optimize\lbfgsb.py", line 328, in _minimize_lbfgsb
    f, g = func_and_grad(x)
  File "C:\Program Files\Anaconda2\lib\site-packages\scipy\optimize\lbfgsb.py", line 278, in func_and_grad
    f = fun(x, *args)
  File "C:\Program Files\Anaconda2\lib\site-packages\scipy\optimize\optimize.py", line 292, in function_wrapper
    return function(*(wrapper_args + args))
  File "vssgp_opt.py", line 52, in func
    LL = sum(self.pool.map_async(eval_f_LL, arguments).get(9999999))
AttributeError: VSSGP_opt instance has no attribute 'pool'
ich muss dazu sagen, dass das nicht mein Code ist, ich möchte ihn aber zum Laufen bekommen, da es sich um eine Demo handelt (höchstwahrscheinlich für linux optimiert).

Grüße
BlackJack

Sonntag 12. Februar 2017, 17:32

@Romaxx: In der Fehlermeldung (und der Dokumentaton von `multiprocessing`) steht, dass das Hauptmodul, also das was als Programm ausgeführt wird, so abgesichert werden muss. Was man sowieso tun sollte, auch wenn man nicht multiprocessing verwendet.

Und ich meinte auch nicht das Du einfach die ``if``-Zeile raus löschst, das verändert dann natürlich das Verhalten des Programms, sondern das man das insgesamt so nicht schreiben würde. Also ich zumindest nicht.
Romaxx
User
Beiträge: 62
Registriert: Donnerstag 26. Januar 2017, 18:53

Sonntag 12. Februar 2017, 17:43

Ok, vergessen wir mal meine Änderungen.
Ich habe folgende Datei:

[codebox=python file=Unbenannt.txt]import numpy as np
from vssgp_model import VSSGP
import multiprocessing
def extend(x, y, z = {}):
return dict(x.items() + y.items() + z.items())
pool, global_f, global_g = None, None, None
def eval_f_LL(X, Y, params):
return global_f['LL'](**extend({'X': X, 'Y': Y}, params))
def eval_g_LL(name, X, Y, params):
return global_g[name]['LL'](**extend({'X': X, 'Y': Y}, params))

class VSSGP_opt():
def __init__(self, N, Q, D, K, inputs, opt_params, fixed_params, use_exact_A = False, test_set = {},
parallel = False, batch_size = None, components = None, print_interval = None):
self.vssgp, self.N, self.Q, self.K, self.fixed_params = VSSGP(use_exact_A), N, Q, K, fixed_params
self.use_exact_A, self.parallel, self.batch_size = use_exact_A, parallel, batch_size
self.inputs, self.test_set = inputs, test_set
self.print_interval = 10 if print_interval is None else print_interval
self.opt_param_names = [n for n,_ in opt_params.iteritems()]
opt_param_values = [np.atleast_2d(opt_params[n]) for n in self.opt_param_names]
self.shapes = [v.shape for v in opt_param_values]
self.sizes = [sum([np.prod(x) for x in self.shapes[:i]]) for i in xrange(len(self.shapes)+1)]
self.components = opt_params['lSigma'].shape[2] if components is None else components
self.colours = [np.random.rand(3,1) for c in xrange(self.components)]
self.callback_counter = [0]
if 'train_ind' not in test_set:
print('train_ind not found!')
self.test_set['train_ind'] = np.arange(inputs['X'].shape[0]).astype(int)
self.test_set['test_ind'] = np.arange(0).astype(int)
if batch_size is not None:
if parallel:
global pool, global_f, global_g
global_f, global_g = self.vssgp.f, self.vssgp.g
pool = multiprocessing.Pool(int(self.N / self.batch_size))
else:
self.params = np.concatenate([v.flatten() for v in opt_param_values])
self.param_updates = np.zeros_like(self.params)
self.moving_mean_squared = np.zeros_like(self.params)
self.learning_rates = 1e-2*np.ones_like(self.params)


def unpack(self, x):
x_param_values = [x[self.sizes[i-1]:self.sizes].reshape(self.shapes[i-1]) for i in xrange(1,len(self.shapes)+1)]
params = {n:v for (n,v) in zip(self.opt_param_names, x_param_values)}
if 'ltau' in params:
params['ltau'] = params['ltau'].squeeze()
return params

def func(self, x):
params = extend(self.fixed_params, self.unpack(x))
if self.batch_size is not None:
X, Y, splits = self.inputs['X'], self.inputs['Y'], int(self.N / self.batch_size)
if self.parallel:
arguments = [(X[i::splits], Y[i::splits], params) for i in xrange(splits)]
LL = sum(pool.map_async(eval_f_LL, arguments).get(9999999))
KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
split = np.random.randint(splits)
LL = self.N / self.batch_size * self.vssgp.f['LL'](**extend({'X': X[split::splits], 'Y': Y[split::splits]}, params))
print(LL)
KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
params = extend(self.inputs, params)
LL, KL = self.vssgp.f['LL'](**params), self.vssgp.f['KL'](**params)
return -(LL - KL)

def fprime(self, x):
grads, params = [], extend(self.fixed_params, self.unpack(x))
for n in self.opt_param_names:
if self.batch_size is not None:
X, Y, splits = self.inputs['X'], self.inputs['Y'], int(self.N / self.batch_size)
if self.parallel:
arguments = [(n, X[i::splits], Y[i::splits], params) for i in xrange(splits)]
dLL = sum(pool.map_async(eval_g_LL, arguments).get(9999999))
dKL = self.vssgp.g[n]['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
split = np.random.randint(splits)
dLL = self.N / self.batch_size * self.vssgp.g[n]['LL'](**extend({'X': X[split::splits], 'Y': Y[split::splits]}, params))
dKL = self.vssgp.g[n]['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
params = extend(self.inputs, params)
dLL, dKL = self.vssgp.g[n]['LL'](**params), self.vssgp.g[n]['KL'](**params)
grads += [-(dLL - dKL)]
return np.concatenate([grad.flatten() for grad in grads])

def callback(self, x):
if self.callback_counter[0]%self.print_interval == 0:
opt_params = self.unpack(x)
params = extend(self.inputs, self.fixed_params, opt_params)
LL = self.vssgp.f['LL'](**params)
KL = self.vssgp.f['KL'](**params)
print(LL - KL)
self.callback_counter[0] += 1[/code]

Diese erhält lediglich über self.vssgp.g bzw. self.vssgp.f die Funktionen, die ausgeführt werden sollen.

Wie ändere ich diese Datei, sodass es parallelisiert läuft?

Kannst du mir hier helfen?

Ich möchte es unter Windows zum Laufen bekommen.

Das vollständige Funkionenpaket der Demo findet sich hier: https://github.com/yaringal/VSSGP

wobei eigentlich nur die hier zitierte die wichtige für das parallelisieren ist.
Romaxx
User
Beiträge: 62
Registriert: Donnerstag 26. Januar 2017, 18:53

Sonntag 12. Februar 2017, 21:09

Kannst du mir wenigstens mitteilen, wie du es schreiben würdest.

Vielleicht bekomme ich dann ein besseres Gespür, wie ich es dann umschreiben kann.
BlackJack

Montag 13. Februar 2017, 00:35

@Romaxx: Ich würde es so schreiben wie die `multiprocessing`-API es verlangt. Das Modul das als Programm ausgeführt wird, muss sich ohne Effekte importieren lassen. Das ist ja *so gar nicht erfüllt*. Der gesamte Code steht einfach auf Modulebene. Der Code gehört in eine Funktion und die dann mit dem ``if __name__ == '__main__':``-Idiom geschützt.

Wenn es dann nicht funktioniert, würde ich es entweder erst einmal unter Linux testen, oder beim Autor des Codes nachfragen.
Romaxx
User
Beiträge: 62
Registriert: Donnerstag 26. Januar 2017, 18:53

Montag 13. Februar 2017, 10:38

Hallo,

danke für deine Antwort.

Mir fällt es schwer dir zu folgen. Was meinst du mir 'ohne Effekte importieren'. Mir sind solche Begriffe leider nicht bekannt.
Und ' Der Code gehört in eine Funktion und die dann mit dem ``if __name__ == '__main__':``-Idiom geschützt'.
Welchen Code meinst du hier? Diesen vielleicht : pool = multiprocessing.Pool(int(self.N / self.batch_size)).
Du meinst also:

[codebox=python file=Unbenannt.txt]class VSSGP_opt():
def __init__(self, N, Q, D, K, inputs, opt_params, fixed_params, use_exact_A = False, test_set = {},
parallel = False, batch_size = None, components = None, print_interval = None):
self.vssgp, self.N, self.Q, self.K, self.fixed_params = VSSGP(use_exact_A), N, Q, K, fixed_params
self.use_exact_A, self.parallel, self.batch_size = use_exact_A, parallel, batch_size
self.inputs, self.test_set = inputs, test_set
self.print_interval = 10 if print_interval is None else print_interval
self.opt_param_names = [n for n,_ in opt_params.iteritems()]
opt_param_values = [np.atleast_2d(opt_params[n]) for n in self.opt_param_names]
self.shapes = [v.shape for v in opt_param_values]
self.sizes = [sum([np.prod(x) for x in self.shapes[:i]]) for i in xrange(len(self.shapes)+1)]
self.components = opt_params['lSigma'].shape[2] if components is None else components
self.colours = [np.random.rand(3,1) for c in xrange(self.components)]
self.callback_counter = [0]
if batch_size is not None:
if parallel:
global pool, global_f, global_g
global_f, global_g = self.vssgp.f, self.vssgp.g
if __name__ == '__main__':
multiprocessing.freeze_support()
pool = multiprocessing.Pool(int(self.N / self.batch_size))
else:
self.params = np.concatenate([v.flatten() for v in opt_param_values])
self.param_updates = np.zeros_like(self.params)
self.moving_mean_squared = np.zeros_like(self.params)
self.learning_rates = 1e-2*np.ones_like(self.params)
def multiprocess(self):
if __name__ == '__main__':
pool = multiprocessing.Pool(int(self.N / self.batch_size))
return (pool)
[/code]

Und 'pool' dann unter 'def func(self, x):' aufrufen?

[codebox=python file=Unbenannt.txt]def func(self, x):
params = extend(self.fixed_params, self.unpack(x))
if self.batch_size is not None:
X, Y, splits = self.inputs['X'], self.inputs['Y'], int(self.N / self.batch_size)
if self.parallel:
arguments = [(X[i::splits], Y[i::splits], params) for i in xrange(splits)]
pool = self.multiprocess()
LL = sum(pool.map_async(eval_f_LL, arguments).get(9999999))
KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
split = np.random.randint(splits)
LL = self.N / self.batch_size * self.vssgp.f['LL'](**extend({'X': X[split::splits], 'Y': Y[split::splits]}, params))
print LL
KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
params = extend(self.inputs, params)
LL, KL = self.vssgp.f['LL'](**params), self.vssgp.f['KL'](**params)
return -(LL - KL)[/code]

Das Problem ist, wenn ich das so umsetze, geht der Programmdurchlauf nicht durch 'if __name__ == '__main__':', sodass ich kein 'pool' in 'multiprocess' ausgeben kann.
BlackJack

Montag 13. Februar 2017, 11:11

@Romaxx: Ich meine den Code in dem Modul das als Programm ausgeführt wird. Den gesamten. Ohne Effekt importieren heisst, man kann ein Modul importieren ohne das irgendwas passiert (ausser das Konstanten, Funktionen, und Klassen definiert werden). Das sollte in einem sauberen Programm für jedes Modul gelten. Bei `multiprocessing` ist das dann zum Beispiel sehr wichtig wie man sieht. Aber auch zum Testen, automatisiert oder manuell für die Fehlersuche, und für einige Werkzeuge, zum Beispiel zur Dokumentationserstellung aus dem Code, ist das importieren eines Moduls ohne dass da irgendein grösseres Programm abläuft oder gar Dateien oder Datenbankverbindungen geöffnet, Hardware angesprochen, externe Prozesse gestartet, … werden, wichtig.

Also wenn Du in das Verzeichnis wechselst, eine Python-Shell startest, und dort ``import VSSGP_example`` eingibst, dann darf nichts weiter passieren als dass das Modul importiert wird und in dem Modul ggf. Konstanten, Funktionen, und Klassen definiert werden. Das gilt transitiv, das heisst auch Module die in der Folge des importierens importiert werden, dürfen keine weiteren Effekte haben. Das ist eine Grundbedingung die das `multiprocessing`-Modul stellt. Zumindest auf Plattformen die kein `fork()` á la Unix kennen. Auf solchen Plattformen werden für das Multiprocessing nämlich neue Prozesse gestartet und das Modul das als Programm gestartet wurde, wird in diesen Prozessen importiert um eine möglichst ähnliche ”Umgebung” bereit zu stellen.

Also mindestens mal alles ab Zeile 9 (inklusive) in dem Modul gehört in eine Funktion die nur aufgerufen wird wenn das Modul als Programm ausgeführt wird.
Romaxx
User
Beiträge: 62
Registriert: Donnerstag 26. Januar 2017, 18:53

Montag 13. Februar 2017, 11:24

D.h. du meinst vssgp_model.f.
Diese Funktion wird doch aber in

[codebox=python file=Unbenannt.txt]import numpy as np
from vssgp_model import VSSGP
import multiprocessing
def extend(x, y, z = {}):
return dict(x.items() + y.items() + z.items())
global_f, global_g = None, None
def eval_f_LL((X, Y, params)):
return global_f['LL'](**extend({'X': X, 'Y': Y}, params))
def eval_g_LL((name, X, Y, params)):
return global_g[name]['LL'](**extend({'X': X, 'Y': Y}, params))

class VSSGP_opt():
def __init__(self, N, Q, D, K, inputs, opt_params, fixed_params, use_exact_A = False, test_set = {},
parallel = False, batch_size = None, components = None, print_interval = None):
self.vssgp, self.N, self.Q, self.K, self.fixed_params = VSSGP(use_exact_A), N, Q, K, fixed_params
self.use_exact_A, self.parallel, self.batch_size = use_exact_A, parallel, batch_size
self.inputs, self.test_set = inputs, test_set
self.print_interval = 10 if print_interval is None else print_interval
self.opt_param_names = [n for n,_ in opt_params.iteritems()]
opt_param_values = [np.atleast_2d(opt_params[n]) for n in self.opt_param_names]
self.shapes = [v.shape for v in opt_param_values]
self.sizes = [sum([np.prod(x) for x in self.shapes[:i]]) for i in xrange(len(self.shapes)+1)]
self.components = opt_params['lSigma'].shape[2] if components is None else components
self.colours = [np.random.rand(3,1) for c in xrange(self.components)]
self.callback_counter = [0]
if batch_size is not None:
if parallel:
global global_f, global_g
global_f, global_g = self.vssgp.f, self.vssgp.g
else:
self.params = np.concatenate([v.flatten() for v in opt_param_values])
self.param_updates = np.zeros_like(self.params)
self.moving_mean_squared = np.zeros_like(self.params)
self.learning_rates = 1e-2*np.ones_like(self.params)

def multiprocess(self):
if __name__ == '__main__':
pool = multiprocessing.Pool(int(self.N / self.batch_size))
return (pool)


def unpack(self, x):
x_param_values = [x[self.sizes[i-1]:self.sizes].reshape(self.shapes[i-1]) for i in xrange(1,len(self.shapes)+1)]
params = {n:v for (n,v) in zip(self.opt_param_names, x_param_values)}
if 'ltau' in params:
params['ltau'] = params['ltau'].squeeze()
return params

def func(self, x):
params = extend(self.fixed_params, self.unpack(x))
if self.batch_size is not None:
X, Y, splits = self.inputs['X'], self.inputs['Y'], int(self.N / self.batch_size)
if self.parallel:
arguments = [(X[i::splits], Y[i::splits], params) for i in xrange(splits)]
pool = self.multiprocess()
LL = sum(pool.map_async(eval_f_LL, arguments).get(9999999))
KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
split = np.random.randint(splits)
LL = self.N / self.batch_size * self.vssgp.f['LL'](**extend({'X': X[split::splits], 'Y': Y[split::splits]}, params))
print LL
KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
params = extend(self.inputs, params)
LL, KL = self.vssgp.f['LL'](**params), self.vssgp.f['KL'](**params)
return -(LL - KL)[/code]

Zeile 2,15 und 29 lediglich geladen und nicht ausgeführt.
Das Problem mit dieser Funktion vssgp_model.f ist, dass es sich hierbei um eine theano compilierte Funktion handelt, die für die Berechnung z.b. der Gradient oder des Funktionswertes auf effizienter Basis erstellt wurde, d.h. dort Änderungen zu unternehmen, ist wahrscheinlich nicht einfach.
BlackJack

Montag 13. Februar 2017, 13:19

@Romaxx: Wieso meine ich ``vssgp_model.f``? Was passiert(e) denn nach der nötigen Änderung um den Code in `VSSGP_example` vor dem Ausführen beim Importieren zu schützen?
Benutzeravatar
Kebap
User
Beiträge: 392
Registriert: Dienstag 15. November 2011, 14:20
Wohnort: Dortmund

Dienstag 14. Februar 2017, 12:06

Anscheinend fehlen hier Grundlagen zum Thema Python Module importieren
MorgenGrauen: 1 Welt, >12 Gilden, >85 Abenteuer, >1000 Waffen und Rüstungen,
>2500 NPC, >16000 Räume, >170 freiwillige Programmierer, einfach Text, seit 1992.
Romaxx
User
Beiträge: 62
Registriert: Donnerstag 26. Januar 2017, 18:53

Mittwoch 15. Februar 2017, 11:27

Ok, jetzt bin auch ich etwas verwirrt.
Können wir noch einmal von vorne beginnen?
Ich habe mir den Link von Kebap nun durchgelesen und hoffe damit mit einer Unterstützng weiter zu kommen.

Also, ich habe folgendes Modul für eine Optimierung einer Funktion mit Theano.

[codebox=python file=Unbenannt.txt]import numpy as np
from vssgp_model import VSSGP
import multiprocessing
def extend(x, y, z = {}):
return dict(x.items() + y.items() + z.items())
pool, global_f, global_g = None, None, None
def eval_f_LL(X, Y, params):
return global_f['LL'](**extend({'X': X, 'Y': Y}, params))
def eval_g_LL(name, X, Y, params):
return global_g[name]['LL'](**extend({'X': X, 'Y': Y}, params))

class VSSGP_opt():
def __init__(self, N, Q, D, K, inputs, opt_params, fixed_params, use_exact_A = False, test_set = {},
parallel = False, batch_size = None, components = None, print_interval = None):
self.vssgp, self.N, self.Q, self.K, self.fixed_params = VSSGP(use_exact_A), N, Q, K, fixed_params
self.use_exact_A, self.parallel, self.batch_size = use_exact_A, parallel, batch_size
self.inputs, self.test_set = inputs, test_set
self.print_interval = 10 if print_interval is None else print_interval
self.opt_param_names = [n for n,_ in opt_params.iteritems()]
opt_param_values = [np.atleast_2d(opt_params[n]) for n in self.opt_param_names]
self.shapes = [v.shape for v in opt_param_values]
self.sizes = [sum([np.prod(x) for x in self.shapes[:i]]) for i in xrange(len(self.shapes)+1)]
self.components = opt_params['lSigma'].shape[2] if components is None else components
self.colours = [np.random.rand(3,1) for c in xrange(self.components)]
self.callback_counter = [0]
if 'train_ind' not in test_set:
print('train_ind not found!')
self.test_set['train_ind'] = np.arange(inputs['X'].shape[0]).astype(int)
self.test_set['test_ind'] = np.arange(0).astype(int)
if batch_size is not None:
if parallel:
global pool, global_f, global_g
global_f, global_g = self.vssgp.f, self.vssgp.g
pool = multiprocessing.Pool(int(self.N / self.batch_size))
else:
self.params = np.concatenate([v.flatten() for v in opt_param_values])
self.param_updates = np.zeros_like(self.params)
self.moving_mean_squared = np.zeros_like(self.params)
self.learning_rates = 1e-2*np.ones_like(self.params)


def unpack(self, x):
x_param_values = [x[self.sizes[i-1]:self.sizes].reshape(self.shapes[i-1]) for i in xrange(1,len(self.shapes)+1)]
params = {n:v for (n,v) in zip(self.opt_param_names, x_param_values)}
if 'ltau' in params:
params['ltau'] = params['ltau'].squeeze()
return params

def func(self, x):
params = extend(self.fixed_params, self.unpack(x))
if self.batch_size is not None:
X, Y, splits = self.inputs['X'], self.inputs['Y'], int(self.N / self.batch_size)
if self.parallel:
arguments = [(X[i::splits], Y[i::splits], params) for i in xrange(splits)]
LL = sum(pool.map_async(eval_f_LL, arguments).get(9999999))
KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
split = np.random.randint(splits)
LL = self.N / self.batch_size * self.vssgp.f['LL'](**extend({'X': X[split::splits], 'Y': Y[split::splits]}, params))
print(LL)
KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
params = extend(self.inputs, params)
LL, KL = self.vssgp.f['LL'](**params), self.vssgp.f['KL'](**params)
return -(LL - KL)

def fprime(self, x):
grads, params = [], extend(self.fixed_params, self.unpack(x))
for n in self.opt_param_names:
if self.batch_size is not None:
X, Y, splits = self.inputs['X'], self.inputs['Y'], int(self.N / self.batch_size)
if self.parallel:
arguments = [(n, X[i::splits], Y[i::splits], params) for i in xrange(splits)]
dLL = sum(pool.map_async(eval_g_LL, arguments).get(9999999))
dKL = self.vssgp.g[n]['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
split = np.random.randint(splits)
dLL = self.N / self.batch_size * self.vssgp.g[n]['LL'](**extend({'X': X[split::splits], 'Y': Y[split::splits]}, params))
dKL = self.vssgp.g[n]['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
params = extend(self.inputs, params)
dLL, dKL = self.vssgp.g[n]['LL'](**params), self.vssgp.g[n]['KL'](**params)
grads += [-(dLL - dKL)]
return np.concatenate([grad.flatten() for grad in grads])

def callback(self, x):
if self.callback_counter[0]%self.print_interval == 0:
opt_params = self.unpack(x)
params = extend(self.inputs, self.fixed_params, opt_params)
LL = self.vssgp.f['LL'](**params)
KL = self.vssgp.f['KL'](**params)
print(LL - KL)
self.callback_counter[0] += 1[/code]

Beim erstmaligen ausführen compiliert mir Theano den Code meiner zu optimierenden Funktion und ich kann durch vssgp_model.f und vssgp_model.g jeweils den Funktionswert der zu optimierenden Funktion und den Gradienten ausgeben ( natürlich mit einem gewissen input, z.B. vssgp_model.f'['LL'](**params); params ist eine Liste mit Variablen).

Wie du siehst, ist in Zeile 33,34 kein

[codebox=python file=Unbenannt.txt]if __name__ == '__main__':[/code]

zu finden. Das ist der Demo-Code, d.h. ich habe hier nichts geändert. Ich hatte bei meinem aller ersten Post das aber drin gehabt, eben weil ich auch in der Multiprocessing Doku gelesen habe, dass man das eigentlich mit einfügen sollte. Das ging straightforward aber dann schief, wie fast zu erwarten war.

Ich glaube, bitte korrigiere mich, wenn ich falsch liege, dass ich die globalen Variablen durch

[codebox=python file=Unbenannt.txt] import numpy as np
from vssgp_model import VSSGP
import pylab
import multiprocessing
def extend(x, y, z = {}):
return dict(x.items() + y.items() + z.items())
def eval_f_LL(X, Y, params):
out_f = VSSGP.f['LL'](**extend({'X': X, 'Y': Y}, params))
return out_f
def eval_g_LL(name, X, Y, params):
out_g = VSSGP.f['LL'](**extend({'X': X, 'Y': Y}, params))
return out_g

class VSSGP_opt():
def __init__(self, N, Q, D, K, inputs, opt_params, fixed_params, use_exact_A = False, test_set = {},
parallel = False, batch_size = None, components = None, print_interval = None):
self.vssgp, self.N, self.Q, self.K, self.fixed_params = VSSGP(use_exact_A), N, Q, K, fixed_params
self.use_exact_A, self.parallel, self.batch_size = use_exact_A, parallel, batch_size
self.inputs, self.test_set = inputs, test_set
self.print_interval = 10 if print_interval is None else print_interval
self.opt_param_names = [n for n,_ in opt_params.iteritems()]
opt_param_values = [np.atleast_2d(opt_params[n]) for n in self.opt_param_names]
self.shapes = [v.shape for v in opt_param_values]
self.sizes = [sum([np.prod(x) for x in self.shapes[:i]]) for i in xrange(len(self.shapes)+1)]
self.components = opt_params['lSigma'].shape[2] if components is None else components
self.colours = [np.random.rand(3,1) for c in xrange(self.components)]
self.callback_counter = [0]
if batch_size is not None:
if parallel:
self.pool = multiprocessing.Pool(int(self.N / self.batch_size))
else:
self.params = np.concatenate([v.flatten() for v in opt_param_values])
self.param_updates = np.zeros_like(self.params)
self.moving_mean_squared = np.zeros_like(self.params)
self.learning_rates = 1e-2*np.ones_like(self.params)


def unpack(self, x):
x_param_values = [x[self.sizes[i-1]:self.sizes].reshape(self.shapes[i-1]) for i in xrange(1,len(self.shapes)+1)]
params = {n:v for (n,v) in zip(self.opt_param_names, x_param_values)}
if 'ltau' in params:
params['ltau'] = params['ltau'].squeeze()
return params

def func(self, x):
params = extend(self.fixed_params, self.unpack(x))
if self.batch_size is not None:
X, Y, splits = self.inputs['X'], self.inputs['Y'], int(self.N / self.batch_size)
if self.parallel:
arguments = [(X[i::splits], Y[i::splits], params) for i in xrange(splits)]
LL = sum(self.pool.map_async(eval_f_LL, arguments).get(9999999))
KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
split = np.random.randint(splits)
LL = self.N / self.batch_size * self.vssgp.f['LL'](**extend({'X': X[split::splits], 'Y': Y[split::splits]}, params))
print(LL)
KL = self.vssgp.f['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
params = extend(self.inputs, params)
LL, KL = self.vssgp.f['LL'](**params), self.vssgp.f['KL'](**params)
return -(LL - KL)

def fprime(self, x):
grads, params = [], extend(self.fixed_params, self.unpack(x))
for n in self.opt_param_names:
if self.batch_size is not None:
X, Y, splits = self.inputs['X'], self.inputs['Y'], int(self.N / self.batch_size)
if self.parallel:
arguments = [(n, X[i::splits], Y[i::splits], params) for i in xrange(splits)]
dLL = sum(self.pool.map_async(eval_g_LL, arguments).get(9999999))
dKL = self.vssgp.g[n]['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
split = np.random.randint(splits)
dLL = self.N / self.batch_size * self.vssgp.g[n]['LL'](**extend({'X': X[split::splits], 'Y': Y[split::splits]}, params))
dKL = self.vssgp.g[n]['KL'](**extend({'X': [[0]], 'Y': [[0]]}, params))
else:
params = extend(self.inputs, params)
dLL, dKL = self.vssgp.g[n]['LL'](**params), self.vssgp.g[n]['KL'](**params)
grads += [-(dLL - dKL)]
return np.concatenate([grad.flatten() for grad in grads])

def callback(self, x):
if self.callback_counter[0]%self.print_interval == 0:
opt_params = self.unpack(x)
params = extend(self.inputs, self.fixed_params, opt_params)
LL = self.vssgp.f['LL'](**params)
KL = self.vssgp.f['KL'](**params)
print(LL - KL)
self.callback_counter[0] += 1[/code]

wegbekomme.

An der Stelle bin ich ausgestiegen.
Wie schütze ich WAS vor der Ausführung?
Entschuldige mein womöglich schlechtes Auffassungsvermögen.

Danke und Grüße
Antworten