aktuell habe ich Interesse in RL entwickelt und bin sehr fasziniert von den Möglichkeiten

Jetzt habe ich mich mal ein wenig gewagt und ein eigenes Projekt gestartet.
Die Problematik:
Habe ich eine Schaltung und die Schaltung wird n mal durchlaufen. (Sei n=1000)
Und nach jedem Durchlauf bekomme ich immer ein Wert (int) , die Aufgabe besteht jetzt anhand des Wertes , Winkel (alpha, beta) von der Schaltung zu optimieren.
Diese Winkel (init angles) werden als Input für die Optimierung genommen und auch in der Schaltung.
ALSO:
Als Input habe ich :
1) Int Wert
2) init angles
3) Schranke für die Winkeln bspw np.array([[0.0, np.pi], [0.0, np.pi*2]]*n )
4) n
Muss ich da in RL jetzt eine komplette Umgebung programmieren und was wären da meine Ansätze :/
Bin für jegliche Hilfe sprich Ansatz extrem dankbar

LG