c++ audio opencv open-source speech-recognition

¿Alguna biblioteca C/C++ de tipo OpenCV para el procesamiento de audio?



open-source speech-recognition (3)

Creo que puedes probar la biblioteca de sonidos de Gaudio - http://www.geek-audio.org

La biblioteca de Gaudio admite descodificación de audio, codificación y dps.

¿Hay algo más por ahí, que se asemeje (en espíritu) a OpenCV, pero para procesar audio y derivar algo de inteligencia de él? Las capacidades pueden variar desde:

  1. Captura de audio multiplataforma y reproducción de audio
  2. DSP - Filtros de audio
  3. Detección de tono
  4. Análisis de propiedad tonal
  5. Síntesis de tono (varias formas de onda estándar)
  6. Reconocimiento dado algún corpus de reconocimiento y modelo (por ejemplo, determinar instrumentos musicales, ritmos, habla humana, etc.) - potencialmente podría utilizar otros proyectos de código abierto para la parte de reconocimiento real (esfinge)
  7. Síntesis de voz / música: podría volver a estar usando algunos otros proyectos de código abierto (festival)

Está bien si la biblioteca funciona en formato de audio sin formato / conversión de codificación son problemas externos manejados por otras bibliotecas existentes (sa desde ffmpeg).

No soy un experto en este campo, pero necesito utilizar dicha API, y me pregunto si existen tales bibliotecas, por lo que mi elección de términos para determinar las capacidades probablemente no sea la mejor, por lo que los expertos podrían querer editar esta pregunta.


Eche un vistazo a Essentia http://essentia.upf.edu/ Essentia es una biblioteca C ++ de código abierto para análisis de audio e información de música basada en audio ... Contiene una amplia colección de algoritmos reutilizables que implementan la funcionalidad de entrada / salida de audio, estándar bloques de procesamiento de señal digital, caracterización estadística de datos y un amplio conjunto de descriptores de música espectrales, temporales, tonales y de alto nivel.

También hay una rama openFrameworks, aunque es posible que desee esperar hasta oficialmente 64 bits, C ++ 11 en un par de meses. https://github.com/GiantSteps/Essentia-Libraries


Para la captura y reproducción de audio, portaudio viene a la mente el portaudio .

Para el procesamiento de audio, STK parece prometedor.

Eche un vistazo a esta pregunta relacionada también: ¿Alguien puede recomendar una biblioteca DSP / speech decente en C ++?

Recomiendo estas tres libs:

  1. muy fácil de usar y amigable para el procesamiento general de señal Aquila-dsp

  2. lib fuerte para el procesamiento de señal de audio aunque difícil de usar y es muy grande y complicado para principiantes: Proyecto CLAM

  3. otro que no tengo experiencia al respecto, vale la pena considerarlo. tspl