open source - ¿Dónde puedo obtener un diccionario de inglés con datos estructurados?
open-source resources (5)
Esta no es una respuesta directa a su pregunta, pero el algoritmo Double Metaphone es muy bueno para encontrar coincidencias de palabras o frases para servidores de aplicaciones de motores de búsqueda (como Solr y otros).
No puedo decir cuál es su uso previsto de esto, por lo que no puedo decir si mi sugerencia es útil o no. Si está cerca de su uso previsto, la página de Wikipedia sobre Double Metaphone tiene una lista de cerca de una docena de implementaciones que puede valer la pena explorar.
Me gustaría descargar un diccionario de inglés, no solo una lista de palabras , en un formato estructurado como TXT, XML o SQL.
Específicamente, necesito pronunciación fonética y partes del discurso (no se requiere definición).
Sorprendentemente, no puedo encontrar esto en línea en ningún lado. Wiktionary está disponible para descargar , pero son solo los artículos de MediaWiki. Arrastrar todos los artículos y extraer la fonética y las partes del discurso sería un gran ejercicio.
¿Está disponible en cualquier lugar? No me importa pagar
Editar: algunas personas me han preguntado qué me gustaría hacer. Mi necesidad inmediata es solo la curiosidad, por ejemplo, "¿cuáles son los verbos de dos sílabas más comunes?". Eventualmente mi esperanza sería una herramienta que te ayude a encontrar los nombres de dominio disponibles, y lo hace emparejando las partes correctas del discurso, con puntos de bonificación para las coincidencias fonéticas.
Nota: publicación cruzada en idioma inglés y uso .
Partes de Speech Dictionary en el dominio público con formato altamente estructurado: http://icon.shef.ac.uk/Moby/mpos.html
Cada línea es una entrada, separada por ×, con el valor de la palabra a la izquierda y el valor de la parte de la oración (verbo, etc.) a la derecha. Archivo de texto simple
Portman, mientras usaba la herramienta SpellChecker de DevExpress , sabía que existían los diccionarios de OpenOffice . Estoy bastante seguro de que tienen una estructura de datos bien definida. Te recomiendo usar eso en combinación con cualquier herramienta de texto a voz gratuita / pagada.
Espero que ayude,
Vaya a http://www.speech.cs.cmu.edu/cgi-bin/cmudict y encontrará la página de descarga del diccionario de pronunciación en https://cmusphinx.svn.sourceforge.net/svnroot/cmusphinx/trunk/cmudict/
La última versión es actualmente cmudict.0.7a.
Esto es lo que estoy usando actualmente para implementar el contador de sílabas para http://www.haikuvillage.com . Está en Ruby y me encantaría abrirlo para ti si eso ayuda.
Wordnet es uno de los mejores diccionarios que conozco. Quizás encuentres algo allí: http://wordnet.princeton.edu/wordnet/related-projects/