html5 - recognition - web speech api ejemplos

¿Chrome tiene un reconocimiento de voz incorporado para los elementos de entrada "x-webkit-speech"? (10)

Me pregunto como

<input type="text" x-webkit-speech speech />

¿Hay una ingeniería de reconocimiento de voz integrada en Chrome o está accediendo a una instalación de reconocimiento de voz subyacente en el sistema operativo?

Acabo de confirmar esto en mi Chrome Cr-48, funciona.

De acuerdo con el código, envía los datos de audio como una solicitud POST a:

https://www.google.com/speech-api/v1/recognize?client=chromium&lang=??&lm=??&xhw=??&maxresults=3

lm es grammar en el código, xhw es hardware_info que es opcional según un comentario. El audio parece ser speex, x-speex-with-header-byte:

// Encode the frame and place the size of the frame as the first byte. This // is the packet format for MIME type x-speex-with-header-byte.

Parece que sería bastante trivial modificar el código chrome para usar en tu propia aplicación.

Actualizar:

También necesita obtener una clave de API de reconocimiento de voz y están limitadas a 50 solicitudes por día . No hay manera de aumentar ese límite, ni siquiera pagando.

El reconocimiento de voz es una propuesta de Google. https://docs.google.com/View?id=dcfg79pz_5dhnp23f5

La función se incluye con Chrome 8+ y parece que envía los datos a los servidores de Google para realizar el reconocimiento real.

Están utilizando su propia API para el reconocimiento de voz. Ej: enviar una solicitud posterior a los servidores.

Esta característica ahora funciona en Chrome 11 beta.

mira esto..

http://slides.html5rocks.com/#speech-input

Esto podría ser de interés https://github.com/taf2/speech2text ruby bindings para el API de voz a texto de Google

Existe una bifurcación experimental de speexenc que puede codificar el formato binario MIME x-speex-with-header-byte, su referencia en el Wiki de QXIP y está disponible en GitHub . ¿Funciona bien colocando el tamaño del marco como el primer byte de paquetes?

Sí, Chrome hace reconocimiento de voz a través de los servidores de Google. Pero no hay ninguna razón por la que otros navegadores no puedan elegir implementarlo de manera diferente (por ejemplo, usando alguna facilidad de reconocimiento de voz en el sistema operativo).

Balu, tu enlace está un poco desactualizado. La última propuesta de Google se puede encontrar aquí: http://www.w3.org/2005/Incubator/htmlspeech/2010/10/google-api-draft.html

Aunque el reconocimiento de voz ha estado disponible en el canal de desarrollo de Chrome durante algún tiempo, aún no se ha enviado y todavía no estamos seguros de cuándo se enviará. Definitivamente queremos que la gente juegue con la API y ofrezca comentarios sobre ella, pero aún no creemos que esté listo para el horario estelar.

Sí, Chrome tiene soporte de voz incorporado a través de WebKit; solo mire la página de inicio de Google (que ahora tiene un micrófono a la derecha del cuadro de búsqueda). Sin embargo, me pregunto si el equipo de Chrome está trabajando en el soporte de voz de Omnibox. Después de todo, Chrome es un navegador basado en WebKit!

También hay un grupo de trabajo que produjo http://www.w3.org/TR/xhtml+voice/ pero no creo que esto esté implementado en ningún navegador excepto en Opera.