tutorial recognition online google audio speech-recognition speech-to-text speech google-speech-api

audio - online - Google Speech Recognition API: marca de tiempo para cada palabra?



speech to text android (1)

No es posible con la API de Google.

Si desea las marcas de tiempo de palabras, puede usar otras API, por ejemplo:

CMUSphinx : API de reconocimiento de voz sin conexión gratuita

API de reconocimiento de voz SpeechMatics SaaS

Speech Recognition API de IBM

Es posible utilizar la API de reconocimiento de voz de Google para obtener una transcripción de un archivo de audio (WAV, MP3, etc.) haciendo una solicitud a http://www.google.com/speech-api/v2/recognize?...

Ejemplo: He dicho "uno dos tres por cinco" en un archivo WAV. Google API me da esto

{u''alternative'': [{u''transcript'': u''12345''}, {u''transcript'': u''1 2 3 4 5''}, {u''transcript'': u''one two three four five''}], u''final'': True}

Pregunta: ¿es posible obtener el tiempo (en segundos) en el que se ha dicho cada palabra?

Con mi ejemplo:

[''one'', 0.23, 0.80], [''two'', 1.03, 1.45], [''three'', 1.79, 2.35], etc.

es decir, la palabra "uno" se ha dicho entre las horas 00: 00: 00.23 y 00: 00: 00.80,
la palabra "dos" se ha dicho entre las horas 00: 00: 01.03 y 00: 00: 01.45 (en segundos)

PD: buscando una API que soporte otros idiomas aparte del inglés, especialmente el francés.