linux - texto - dictation español

Necesita herramientas de reconocimiento de texto a voz y voz para Linux (12)

He usado Loquendo y Festival en Linux. Consideraría las voces del festival que utilicé bastante pobres, con síntesis muy robótica. Las voces de Loquendo, por otro lado, son excelentes, de muy alta calidad.

Estoy planeando escribir un programa para Linux que use texto a voz y reconocimiento de voz. ¿Cuáles son las mejores herramientas / bibliotecas para esto? ¿Debería usar Windows para poder usar mejores herramientas? Las herramientas deben poder llamarse fácilmente desde una consola o programa C.

Para el reconocimiento de voz existen las diversas Esfinges . Las diferentes variantes tienen diferentes pros y contras, aquí hay una comparación Comparación de las versiones de Sphinx . Sphinx 4 es Java, pero los otros son C, creo.

Para el reconocimiento de voz, existe muy poco para Linux. Solo estaba al tanto de una opción aparentemente decente, algo que IBM lanzó hace algunos años pero que luego dejó de estar disponible (¿alguien sabe si este ViaVoice SDK todavía es posible de conseguir desde cualquier lugar?). Hay más información sobre las posibles opciones en wikipedia .

Sé que espeak es un muy buen programa de texto a voz para Linux (¡incluso puede hacer diferentes acentos!), Pero no conozco ningún sistema de reconocimiento de voz diseñado para UNIX.

at & t fsm toolkit también es bastante impresionante, sin embargo, no se permite el uso comercial,

http://www.research.att.com/~fsmtools/fsm/

Depende bastante de qué discurso estés tratando de reconocer.

Este es un artículo de 2005 que explica algunas de las dificultades para crear un programa de dictado: http://www.cs.cmu.edu/~archan/personal/whyNoOpenSourceDictationDraft4.html . Si lo desea, el motor de reconocimiento de voz Julius parece prometedor, pero deberá agregar sus propios modelos acústicos y de lenguaje. Es posible que pueda usar el modelo acústico de voxforge .

Si no estás tratando de escribir un programa de dictado, entonces tienes una tarea mucho más fácil. Los programas de comando tienen vocabularios limitados, por ejemplo ''Si desea continuar en inglés, diga'' Inglés ''''.

Pude obtener muy buenos resultados usando pocketsphinx y gstreamer para hacer un programa que edita automáticamente la mayoría de las apariciones de la palabra " twitter " del podcast TWiT . No funcionó en absoluto hasta que utilicé mi propio modelo de lenguaje basado en las transcripciones del podcast; las transcripciones de la máquina del reconocedor de voz son inútiles / hilarantes, pero hacen un buen trabajo al encontrar la palabra clave.

Esto es un poco antiguo, pero vi una guía bastante completa sobre reconocimiento de voz en Hackaday hace unos días: http://hackaday.com/2010/07/09/get-started-with-speech-recognition/

Y luego está mbrola para texto a voz.

http://simon-listens.org/ - simon open-source programa de reconocimiento de voz / voz

La pregunta original era sobre la búsqueda de bibliotecas adecuadas, lo sé, pero desde el punto de vista del uso del reconocimiento de voz lo suficientemente bueno para el dictado real, parece que no hay nada para Linux (aunque estoy seguro de que cambiará a tiempo, sospecho que lo hará). tómate un tiempo, ya que no estoy seguro de que muchas personas estén interesadas).

Por el momento estoy tratando de promocionar Dragon NaturallySpeaking como un producto soportado por CodeWeavers ... así que si te interesa como usuario, sería útil que emitieras un voto ...

http://www.codeweavers.com/compatibility/browse/name/?app_id=8427

¿Revisó la síntesis de voz basada en HMM para texto a voz? Puede encontrar la demo gratuita en el sitio web http://hts.sp.nitech.ac.jp/ . La instalación será un poco tediosa.

Para Debian / Ubuntu text-to-speech también hay SVOX Pico:

sudo apt-get install libttspico-utils