ich falle gleich mit der Tür ins Haus

Und gleich vorweg, ich habe recht wenig Ahnung vom Coden (vielleicht wird sich das ändern). Meine letzten 'Coder-Erfahrungen' liegen in zeiten, in denen man Webseiten mit HTML, Tabellen und Frames gemacht hat, also nciht gleich erschlagen

Es fragte mich jemand nach einer Diktierapp und ich dachte mir, warum nicht, ChatGPT, Grok und Co. können sowas bestimmt schreiben. Denn Ich hab seltsamerweise keine wirklich aktuell funktionierende (kostenlose) App gefunden.
Also habe ich mich an die Arbeit gemacht bzw. die KI-Chats zur Arbeit gezwungen.
Interessant ist es auf jeden Fall, was die Dinger rausspucken können!
Nach einer ganzen Weile herumdiskutieren und jede menge Verzweifelung (die Dinger sind doch noch blöd und ich nicht schlau genug) kam dieser code raus, den ich hier poste.
An sich funktioniert (fast) alles.
Die on/off-Funktion für Groß- und Kleinschreibung geht wohl noch nicht (habe es vor allem aus debugging Gründen implementieren lassen, damit man manche Prozesse abschalten kann), aber ansonsten läufts.
Das Problem:
1. es ist noch etwas langsam und ich frage mich, obs doch auch mit Silero + Großschreibung (german-nouns) schneller geht
2. die Spracherkennung ist dürftig
Ich habe davor ohne Silero-VAD nen Skript gebastelt, der geht mit deutlich besserer Erkennung und Geschwindigkeit, aber da kommt doch einiges an Müll mit.
Falls hier jemand mit Erfahrung Lust/Zeit hat, kann er gerne mal mitschauen. Ich denke, wenn man mit Vosk und Silero schon gearbeitet hat und Ahnung von Python hat, wird man das Problem eher erkennen.
Danke schon mal!
P.S.
Habe versucht den Code zu posten, der ist allerdings zu lang. Gibts eine andere Möglichkeit? Dateien hochladen kann man hier wie es aussieht nicht.
Habs jetzt erstmal so gelöst: https://codeshare.io/GL7Ng6