Userinput per Sprache über den Browser

meego · Mittwoch 19. Oktober 2016, 14:09

Kann man Python dazu verwenden? Falls nicht: Was wird dazu verwendet?

BlackJack · Mittwoch 19. Oktober 2016, 14:17

@meego: Dazu installiert der Benutzer normalerweise Spracherkennungssoftware bei sich auf dem Rechner. Smartphones haben da oft schon was passendes vom Hersteller.

meego · Mittwoch 19. Oktober 2016, 14:30

Bei Duolingo geht's über den Browser.

BlackJack · Mittwoch 19. Oktober 2016, 15:38

Aus der FAQ: „Duolingo on the web requires the Adobe Flash plugin to accept speech input, so first ensure that you have Flash installed.“

Die schicken die Aufnahme also sehr wahrscheinlich zum Server und verarbeiten die da irgendwie.

meego · Mittwoch 19. Oktober 2016, 16:12

Gibt es andere Möglichkeiten als Flash per Webbrowser? (Flash wird ja heute nicht mehr empfohlen.)

Sirius3 · Mittwoch 19. Oktober 2016, 16:21

@meego: da gibts ja was von Google oder Amazon, oder man macht das halt selbst: da. Mikrofon ansprechen geht ja heutzutage bei den meisten Browsern per Javascript. Gibt es bestimmt auch schon fertige Anleitungen im Netz. Brauchst Du Hilfe beim Bedienen einer Suchmaschine?

BlackJack · Mittwoch 19. Oktober 2016, 16:45

@meego: Es gibt zwar Möglichkeiten per JavaScript, die sind aber noch nicht standardisiert. Das heisst verschiedene Browser unterstützen verschieden viel von der API und nicht jeder stellt die Sachen unter den gleichen Namen zur Verfügung. Da müsste man sich also mindestens eine Abstraktionsbibliothek suchen (oder selber schreiben) und damit leben das nicht alle Browser(versionen) das dann auch können. Mit Flash hast Du da eine deutlich höhere Abdeckung und es funktioniert halt überall gleich.

Oder Du wartest bis die Web Audio API ein Standard geworden und den ganzen Browsern unterstützt wird.

DasIch · Mittwoch 19. Oktober 2016, 17:45

Die Web Audio API erlaubt dir auch nur Aufnahmen zu machen und diese zu verarbeiten. Speech Recognition bekommst du damit nicht und es scheint mir dass möchtest du haben. Zum einen haben sich Betriebssysteme dies ohnehin zur Aufgabe gemacht und damit macht es wenig Sinn dies nochmal zu implementieren, zum anderen ist dass ein sehr komplexes Problem und es braucht riesige Ressourcen um es zu lösen. Wenn du nicht Apple, Google oder Microsoft bist hast du diese Ressourcen wahrscheinlich nicht und wirst daran nicht herankommen und dass ist die optimistische Perspektive, realistisch ist dass du vollkommen versagst.

meego · Mittwoch 19. Oktober 2016, 22:29

War das mit der Web Audio API und der Verbindung mit dem Wort Standard jetzt eine realistische Aussage oder eine Scherzhafte?

Was macht denn die verlinkte Python Library? Sendet die den ganzen Audiokram nur zur Verarbeitung an die APIs von Dritten? Gibt's in der Linuxwelt auch eine Anstrengung für diese Aufgabe oder bleibt das den genannten üblichen Verdächtigen vorbehalten?

BlackJack · Mittwoch 19. Oktober 2016, 23:02

@meego: Ich denke schon das sich in der Richtung was weiterentwickeln wird, denn letztendlich wollen doch so einige Flash endlich beerdigen. Selbst Adobe.

Wie DasIch schon sagte: Spracherkennung ist nicht leicht. Alle die das *gut* machen, haben da fette Server hinter stehen, und auch sonst ordentlich Ressourcen. Oder sie sind Jahrzehnte im Geschäft und haben dadurch Erfahrung und Ressourcen.

meego · Donnerstag 20. Oktober 2016, 10:17

@B: Danke für die Infos. Dann sieht es für die Linuxwelt wohl düster aus, angenommen, die neuste These von Conversation as an interface ist wahr.

BlackJack · Donnerstag 20. Oktober 2016, 10:33

@meego: Wieso das? Es gibt doch die Lösungen in der Cloud, die auch von Windows und MacOS verwendet werden. Es sieht insgesamt eher düster für die Privatsphäre aus wenn die These stimmt, weil die Leute dann freiwillig aktiv auch was sie in ihren vier Wänden sprechen an die NSA liefern.

Sirius3 · Donnerstag 20. Oktober 2016, 10:39

@meego: ich hab Dir doch einen Link zu einem Paket gegeben, wo auch ein Interface zu einer Offline-Speech-Recognition-Library existiert. Für Linux. Du mußt das halt selbst auf Deine Sprache trainieren.

meego · Donnerstag 20. Oktober 2016, 11:51

BlackJack hat geschrieben:Es sieht insgesamt eher düster für die Privatsphäre aus wenn die These stimmt, weil die Leute dann freiwillig aktiv auch was sie in ihren vier Wänden sprechen an die NSA liefern.

Eben.

Siri nutzt eine Cloud-Lösung?

BlackJack · Donnerstag 20. Oktober 2016, 11:58

@meego: Siri schickt die Audiodaten der Frage an Apple-Server. Erst dort wird Text daraus gemacht. Eventuell werden die Daten auf dem Client schon vorverarbeitet, aber Apple will ja Daten sammeln um die Spracherkennung immer besser zu trainieren. Allgemein, und natürlich auch für den individuellen Anwender. Das dürfte auch für die anderen Anbieter (Amazon, Google, Microsoft, …) gelten.

meego · Donnerstag 20. Oktober 2016, 13:25

Sehr interessant. Ich hoffe, die freie Welt findet doch noch eine Antwort darauf.

BlackJack · Donnerstag 20. Oktober 2016, 13:42

@meego: Na klar: Spracheingabe ist ja noch schlimmer als Klickibunti! Verwende gefälligst die Konsole.

meego · Donnerstag 20. Oktober 2016, 15:35

@B: Ich hole bald meine Bashreferenz ab.

Aber die Masse wird sich leider von der Konsole nicht beeindrucken lassen.