usar recognition pricing google demonstration como speech-recognition

speech-recognition - recognition - web speech api sample



API de voz de Google (1)

Ahora estoy trabajando con mi proyecto y estoy a punto de construir una aplicación similar a Siri para la computadora de escritorio. ¿Estoy pensando si Google Speech API es confiable y precisa para el reconocimiento de voz? ¿Puede sugerirme qué API de voz es la más precisa en términos de reconocimiento de voz? Lo más preferible es una API gratuita. Gracias.


Si bien la API de voz de Google es gratuita, no es una API pública oficial. Algunas personas lo han diseñado por ingeniería inversa, como se explica en este blog . Si planea acceder directamente a la API para un producto comercial, no lo recomendaría porque pueden dejarlo o cambiarlo sin previo aviso, rompiendo su producto. Esto sucedió recientemente a los desarrolladores que utilizaron la API de Google Weather . Si está accediendo a él a través de un navegador Chrome utilizando x-webkit-speech por otro lado, es probable que esté seguro ya que es compatible con Google. El reconocimiento de voz de Google está a la altura de muchas de las soluciones comerciales más populares. Tienen mucha experiencia con él en otros proyectos como Google Voice y el ahora desaparecido Google 411. Tienen algunos de los mejores científicos del habla trabajando para ellos. La única otra alternativa gratuita que se me ocurre es Sphinx que es un proyecto de código abierto de la Universidad Carnegie Mellon. Empiece la curva de aprendizaje con esta solución y si desea que se configure como un servicio, tendrá que desarrollarlo usted mismo. Nuance es el otro gran jugador en el mercado de reconocimiento de voz (creo que eso es lo que Siri usa) y tienen soluciones que ofrecen el reconocimiento de voz como un servicio. Pero son caros.

Actualización sobre la respuesta de los comentarios sobre el soporte de idiomas

Windows Speech Recognition admite otros idiomas, al igual que la mayoría de los sistemas de reconocimiento de voz. Pero la advertencia es que tiene que decirle al sistema qué idioma usar y tiene que admitir el idioma en cuestión. Cada proveedor tiene una lista de idiomas que admite y son específicos de una región. Por ejemplo, un proveedor puede admitir español mexicano, español americano y español español; que todos tienen dialectos ligeramente diferentes. Pero el motor de reconocimiento de voz solo puede admitir un idioma / dialecto en un temporizador por usuario. Un usuario no puede hablar varios idiomas en un sistema de reconocimiento de voz sin antes solicitar que cambie a ese idioma.

Actualizado 3/17/2014

El campo de entrada x-webkit-speech está en desuso debido a la falta de soporte en otros navegadores. Esto se reemplazará con la API de Web Speech , que es una API de javascript. Puedes encontrar un ejemplo sobre cómo usarlo aquí .