Userinput per Sprache über den Browser

Django, Flask, Bottle, WSGI, CGI…
Antworten
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

Kann man Python dazu verwenden? Falls nicht: Was wird dazu verwendet?
BlackJack

@meego: Dazu installiert der Benutzer normalerweise Spracherkennungssoftware bei sich auf dem Rechner. Smartphones haben da oft schon was passendes vom Hersteller.
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

Bei Duolingo geht's über den Browser.
BlackJack

Aus der FAQ: „Duolingo on the web requires the Adobe Flash plugin to accept speech input, so first ensure that you have Flash installed.“

Die schicken die Aufnahme also sehr wahrscheinlich zum Server und verarbeiten die da irgendwie.
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

Gibt es andere Möglichkeiten als Flash per Webbrowser? (Flash wird ja heute nicht mehr empfohlen.)
Sirius3
User
Beiträge: 17710
Registriert: Sonntag 21. Oktober 2012, 17:20

@meego: da gibts ja was von Google oder Amazon, oder man macht das halt selbst: da. Mikrofon ansprechen geht ja heutzutage bei den meisten Browsern per Javascript. Gibt es bestimmt auch schon fertige Anleitungen im Netz. Brauchst Du Hilfe beim Bedienen einer Suchmaschine?
BlackJack

@meego: Es gibt zwar Möglichkeiten per JavaScript, die sind aber noch nicht standardisiert. Das heisst verschiedene Browser unterstützen verschieden viel von der API und nicht jeder stellt die Sachen unter den gleichen Namen zur Verfügung. Da müsste man sich also mindestens eine Abstraktionsbibliothek suchen (oder selber schreiben) und damit leben das nicht alle Browser(versionen) das dann auch können. Mit Flash hast Du da eine deutlich höhere Abdeckung und es funktioniert halt überall gleich.

Oder Du wartest bis die Web Audio API ein Standard geworden und den ganzen Browsern unterstützt wird. :-)
DasIch
User
Beiträge: 2718
Registriert: Montag 19. Mai 2008, 04:21
Wohnort: Berlin

Die Web Audio API erlaubt dir auch nur Aufnahmen zu machen und diese zu verarbeiten. Speech Recognition bekommst du damit nicht und es scheint mir dass möchtest du haben. Zum einen haben sich Betriebssysteme dies ohnehin zur Aufgabe gemacht und damit macht es wenig Sinn dies nochmal zu implementieren, zum anderen ist dass ein sehr komplexes Problem und es braucht riesige Ressourcen um es zu lösen. Wenn du nicht Apple, Google oder Microsoft bist hast du diese Ressourcen wahrscheinlich nicht und wirst daran nicht herankommen und dass ist die optimistische Perspektive, realistisch ist dass du vollkommen versagst.
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

War das mit der Web Audio API und der Verbindung mit dem Wort Standard jetzt eine realistische Aussage oder eine Scherzhafte? :)

Was macht denn die verlinkte Python Library? Sendet die den ganzen Audiokram nur zur Verarbeitung an die APIs von Dritten? Gibt's in der Linuxwelt auch eine Anstrengung für diese Aufgabe oder bleibt das den genannten üblichen Verdächtigen vorbehalten?
BlackJack

@meego: Ich denke schon das sich in der Richtung was weiterentwickeln wird, denn letztendlich wollen doch so einige Flash endlich beerdigen. Selbst Adobe.

Wie DasIch schon sagte: Spracherkennung ist nicht leicht. Alle die das *gut* machen, haben da fette Server hinter stehen, und auch sonst ordentlich Ressourcen. Oder sie sind Jahrzehnte im Geschäft und haben dadurch Erfahrung und Ressourcen.
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

@B: Danke für die Infos. Dann sieht es für die Linuxwelt wohl düster aus, angenommen, die neuste These von Conversation as an interface ist wahr.
BlackJack

@meego: Wieso das? Es gibt doch die Lösungen in der Cloud, die auch von Windows und MacOS verwendet werden. Es sieht insgesamt eher düster für die Privatsphäre aus wenn die These stimmt, weil die Leute dann freiwillig aktiv auch was sie in ihren vier Wänden sprechen an die NSA liefern. :twisted:
Sirius3
User
Beiträge: 17710
Registriert: Sonntag 21. Oktober 2012, 17:20

@meego: ich hab Dir doch einen Link zu einem Paket gegeben, wo auch ein Interface zu einer Offline-Speech-Recognition-Library existiert. Für Linux. Du mußt das halt selbst auf Deine Sprache trainieren.
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

BlackJack hat geschrieben:Es sieht insgesamt eher düster für die Privatsphäre aus wenn die These stimmt, weil die Leute dann freiwillig aktiv auch was sie in ihren vier Wänden sprechen an die NSA liefern. :twisted:
Eben. :) Siri nutzt eine Cloud-Lösung?
BlackJack

@meego: Siri schickt die Audiodaten der Frage an Apple-Server. Erst dort wird Text daraus gemacht. Eventuell werden die Daten auf dem Client schon vorverarbeitet, aber Apple will ja Daten sammeln um die Spracherkennung immer besser zu trainieren. Allgemein, und natürlich auch für den individuellen Anwender. Das dürfte auch für die anderen Anbieter (Amazon, Google, Microsoft, …) gelten.
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

Sehr interessant. Ich hoffe, die freie Welt findet doch noch eine Antwort darauf.
BlackJack

@meego: Na klar: Spracheingabe ist ja noch schlimmer als Klickibunti! Verwende gefälligst die Konsole. ;-)
meego
User
Beiträge: 380
Registriert: Montag 4. März 2013, 14:36

@B: Ich hole bald meine Bashreferenz ab. ;) Aber die Masse wird sich leider von der Konsole nicht beeindrucken lassen.
Antworten