texto puedo por para fecha extension computador como comando carpetas buscar archivos archivo search audio speech-recognition

search - puedo - como buscar un archivo en mi pc



¿Cómo busco contenido en archivos de audio/secuencias? (1)

Siempre me he preguntado cuántas técnicas de búsqueda diferentes existían, para buscar texto, buscar imágenes e incluso videos.

Sin embargo, nunca me encontré con una solución que buscara contenido dentro de archivos de audio.

Por ejemplo: supongamos que tengo alrededor de 200 podcasts descargados en mi PC en forma de archivos mp3, wav y ogg. Todos ellos reciben el nombre genérico de podcast1.mp3, podcast2.mp3, etc. Por lo tanto, no es posible saber cuál es el contenido, sin realmente escucharlos. Digamos que, estoy interesado en descubrir, que los podcasts hablan de ''programación de juegos''. Quiero que los resultados se muestren como:

  • Podcast1.mp3 - 3 resultado (s) a índice (s) de tiempo - 0:16:21, 0:43:45, 1:12:31
  • Podcast21.ogg - 1 resultado (s) a índice (s) de tiempo - 0:12:01

Entonces mis preguntas:

  • ¿Cómo podría uno abordar este problema?
  • ¿Hay algoritmos adecuados desarrollados para hacer algo como esto?

Una idea que surgió en mi mente fue que uno podría usar un software de "voz a texto" para obtener transcripciones junto con índices de tiempo para cada uno de los archivos de audio, luego analizar la transcripción para obtener el resultado.

Estaba considerando esto como uno de mis proyectos de hobby. ¡Gracias!


Si desea buscar texto (es decir, lo que se dice) dentro de una transmisión de audio, debe procesarlo con algún tipo de algoritmo de reconocimiento de voz y almacenar el texto como metadatos asociados con los archivos. Para video también puede hacer reconocimiento de texto para el texto dentro del video. Evernote ya hace esto para texto dentro de archivos de imagen, pero no tiene soporte para audio hasta donde yo sé.

Algo similar es posible cuando se usa audio para buscar audio. No conozco los detalles de estos algoritmos, pero supongo que implican algún tipo de análisis de frecuencia. Shazam está utilizando este tipo de tecnología para identificar canciones basadas en clips de audio.

Aquí hay algunos artículos de Wikipedia que pueden ser útiles: