Userinput per Sprache über den Browser
@meego: Dazu installiert der Benutzer normalerweise Spracherkennungssoftware bei sich auf dem Rechner. Smartphones haben da oft schon was passendes vom Hersteller.
Aus der FAQ: „Duolingo on the web requires the Adobe Flash plugin to accept speech input, so first ensure that you have Flash installed.“
Die schicken die Aufnahme also sehr wahrscheinlich zum Server und verarbeiten die da irgendwie.
Die schicken die Aufnahme also sehr wahrscheinlich zum Server und verarbeiten die da irgendwie.
@meego: da gibts ja was von Google oder Amazon, oder man macht das halt selbst: da. Mikrofon ansprechen geht ja heutzutage bei den meisten Browsern per Javascript. Gibt es bestimmt auch schon fertige Anleitungen im Netz. Brauchst Du Hilfe beim Bedienen einer Suchmaschine?
@meego: Es gibt zwar Möglichkeiten per JavaScript, die sind aber noch nicht standardisiert. Das heisst verschiedene Browser unterstützen verschieden viel von der API und nicht jeder stellt die Sachen unter den gleichen Namen zur Verfügung. Da müsste man sich also mindestens eine Abstraktionsbibliothek suchen (oder selber schreiben) und damit leben das nicht alle Browser(versionen) das dann auch können. Mit Flash hast Du da eine deutlich höhere Abdeckung und es funktioniert halt überall gleich.
Oder Du wartest bis die Web Audio API ein Standard geworden und den ganzen Browsern unterstützt wird.
Oder Du wartest bis die Web Audio API ein Standard geworden und den ganzen Browsern unterstützt wird.

Die Web Audio API erlaubt dir auch nur Aufnahmen zu machen und diese zu verarbeiten. Speech Recognition bekommst du damit nicht und es scheint mir dass möchtest du haben. Zum einen haben sich Betriebssysteme dies ohnehin zur Aufgabe gemacht und damit macht es wenig Sinn dies nochmal zu implementieren, zum anderen ist dass ein sehr komplexes Problem und es braucht riesige Ressourcen um es zu lösen. Wenn du nicht Apple, Google oder Microsoft bist hast du diese Ressourcen wahrscheinlich nicht und wirst daran nicht herankommen und dass ist die optimistische Perspektive, realistisch ist dass du vollkommen versagst.
War das mit der Web Audio API und der Verbindung mit dem Wort Standard jetzt eine realistische Aussage oder eine Scherzhafte?
Was macht denn die verlinkte Python Library? Sendet die den ganzen Audiokram nur zur Verarbeitung an die APIs von Dritten? Gibt's in der Linuxwelt auch eine Anstrengung für diese Aufgabe oder bleibt das den genannten üblichen Verdächtigen vorbehalten?

Was macht denn die verlinkte Python Library? Sendet die den ganzen Audiokram nur zur Verarbeitung an die APIs von Dritten? Gibt's in der Linuxwelt auch eine Anstrengung für diese Aufgabe oder bleibt das den genannten üblichen Verdächtigen vorbehalten?
@meego: Ich denke schon das sich in der Richtung was weiterentwickeln wird, denn letztendlich wollen doch so einige Flash endlich beerdigen. Selbst Adobe.
Wie DasIch schon sagte: Spracherkennung ist nicht leicht. Alle die das *gut* machen, haben da fette Server hinter stehen, und auch sonst ordentlich Ressourcen. Oder sie sind Jahrzehnte im Geschäft und haben dadurch Erfahrung und Ressourcen.
Wie DasIch schon sagte: Spracherkennung ist nicht leicht. Alle die das *gut* machen, haben da fette Server hinter stehen, und auch sonst ordentlich Ressourcen. Oder sie sind Jahrzehnte im Geschäft und haben dadurch Erfahrung und Ressourcen.
@meego: Wieso das? Es gibt doch die Lösungen in der Cloud, die auch von Windows und MacOS verwendet werden. Es sieht insgesamt eher düster für die Privatsphäre aus wenn die These stimmt, weil die Leute dann freiwillig aktiv auch was sie in ihren vier Wänden sprechen an die NSA liefern. 

Eben.BlackJack hat geschrieben:Es sieht insgesamt eher düster für die Privatsphäre aus wenn die These stimmt, weil die Leute dann freiwillig aktiv auch was sie in ihren vier Wänden sprechen an die NSA liefern.

@meego: Siri schickt die Audiodaten der Frage an Apple-Server. Erst dort wird Text daraus gemacht. Eventuell werden die Daten auf dem Client schon vorverarbeitet, aber Apple will ja Daten sammeln um die Spracherkennung immer besser zu trainieren. Allgemein, und natürlich auch für den individuellen Anwender. Das dürfte auch für die anderen Anbieter (Amazon, Google, Microsoft, …) gelten.
@meego: Na klar: Spracheingabe ist ja noch schlimmer als Klickibunti! Verwende gefälligst die Konsole. 
