audio pattern-recognition audio-fingerprinting

Reconocimiento de patrones de audio de fuente abierta(impresión digital)



pattern-recognition audio-fingerprinting (5)

De acuerdo. Diferentes palabras clave de búsqueda, todos los resultados que busqué.

http://musicbrainz.org/doc/Audio_Fingerprint

Gracias por ver a cualquiera

¿Existe alguna solución de huellas digitales de audio de código abierto que proporcione una solución "similar a Shazam"?

Shazam usa la solución comercial de Landmark digital, pero estoy buscando una solución de código abierto alternativa (aunque sea inferior en precisión y rendimiento).

¿Alguien sabe algo acerca de tal implementación o incluso de un algoritmo publicado no implementado?


Existen algunos proyectos de reconocimiento de audio de código abierto, aunque puede olvidar la calidad / rendimiento de los servicios comerciales de identificación de audio como Shazam, SoundHound, etc. También depende del tipo de reconocimiento que desee hacer (archivos de audio de huellas dactilares / etiquetado, identificación en tiempo real, reconocimiento OTA (Over-The-Air), etc.)

Surce abierto

  • AcoustID/MusicBrainz Proporciona herramientas para realizar huellas digitales de audio y asociación de metadatos (huella digital y servidor). Puede instalar su propio servidor de huella digital / metadatos o usar el servicio de MusicBrainz. Buena solución para las huellas dactilares y el reconocimiento de archivos de audio, no adecuada para aplicaciones de alto rendimiento en tiempo real (es decir, OTA). También lo hemos probado para el monitoreo de la transmisión de audio (monitoreo de transmisión) pero los resultados fueron bastante pobres.

  • Echoprint Proporciona las mismas herramientas que AcoustID (huella dactilar y servidor + metadatos) y también se puede usar para monitorear el flujo de audio, ya que puede reconocer fragmentos tomados de cualquier parte del audio con una precisión decente (pero no lo usaría para aplicaciones comerciales serias) . También afirman que es adecuado para aplicaciones OTA, pero las prestaciones en ningún lugar son adecuadas para usos de producción.

  • Last.fm No es completamente de código abierto, aunque han abierto el módulo de toma de huellas dactilares. Debe consultar los servicios de su proveedor de identificación y metadatos, ya que no proporcionan una solución completa.



Si está buscando una solución en .NET, consulte la biblioteca de SoundFingerprinting .

Es de código abierto y está construido sobre el contenido de huellas dactilares utilizando el trabajo de investigación de Wavelets.

El algoritmo es diferente al de Shazaam, pero la idea general es similar: extraiga los coeficientes más prominentes del espectro, luego utilícelos para construir las huellas digitales para su posterior recuperación.

La descripción del algoritmo se puede encontrar here .


  • echoprint parece una alternativa sólida a las libretas comerciales.

para el reconocimiento de voz:

Solo probamos ecoprint y hasta ahora todo bien.

Sé que la respuesta es un poco tarde, pero como esta página aparece en Google, podemos mejorarla con el tiempo :)

editado como CMU está orientado al habla