audio - online - Google Speech Recognition API: marca de tiempo para cada palabra?
speech to text android (1)
No es posible con la API de Google.
Si desea las marcas de tiempo de palabras, puede usar otras API, por ejemplo:
CMUSphinx : API de reconocimiento de voz sin conexión gratuita
Es posible utilizar la API de reconocimiento de voz de Google para obtener una transcripción de un archivo de audio (WAV, MP3, etc.) haciendo una solicitud a http://www.google.com/speech-api/v2/recognize?...
Ejemplo: He dicho "uno dos tres por cinco" en un archivo WAV. Google API me da esto
{u''alternative'': [{u''transcript'': u''12345''}, {u''transcript'': u''1 2 3 4 5''},
{u''transcript'': u''one two three four five''}], u''final'': True}
Pregunta: ¿es posible obtener el tiempo (en segundos) en el que se ha dicho cada palabra?
Con mi ejemplo:
[''one'', 0.23, 0.80], [''two'', 1.03, 1.45], [''three'', 1.79, 2.35], etc.
es decir, la palabra "uno" se ha dicho entre las horas 00: 00: 00.23 y 00: 00: 00.80,
la palabra "dos" se ha dicho entre las horas 00: 00: 01.03 y 00: 00: 01.45 (en segundos)
PD: buscando una API que soporte otros idiomas aparte del inglés, especialmente el francés.