tag - Detectando el lenguaje usando Stanford NLP

stanford nlp tag list (2)

Standford CoreNLP no tiene ID de idioma (al menos no todavía), consulte http://nlp.stanford.edu/software/corenlp.shtml

Hay muchas más herramientas de detección / identificación de idiomas. Pero tome la precisión reportada con una pizca de sal. Por lo general, se evalúa estrictamente, limitado por:

una lista de arreglos de idiomas,
una longitud sustancial de las oraciones de prueba y
del mismo idioma y
una proporción sesgada de entrenamiento para las instancias de prueba.

Las herramientas de identificación de idiomas notables incluyen:

TextCat ( http://cran.r-project.org/web/packages/textcat/index.html )
CLD ( https://code.google.com/p/cld2/ )
LingPipe ( http://alias-i.com/lingpipe/demos/tutorial/langid/read-me.html )

Una lista exhaustiva de meta-guide.com, consulte http://meta-guide.com/software-meta-guide/100-best-github-language-identification/

La tarea compartida relacionada con la identificación de idiomas destacables (con datos de entrenamiento / prueba) incluye:

También eche un vistazo a:

Me pregunto si es posible usar Stanford CoreNLP para detectar en qué idioma está escrita una oración. Si es así, ¿qué tan precisos pueden ser esos algoritmos?

Casi con seguridad no hay identificación de idioma en Stanford COreNLP en este momento. ''casi'' - porque la inexistencia es mucho más difícil de probar.

EDITAR: Sin embargo, a continuación hay evidencias circunstanciales:

no se menciona la identificación del idioma ni en la página principal , ni en la página CoreNLP , ni en las preguntas frecuentes (aunque hay una pregunta "¿Cómo ejecuto CoreNLP en otros idiomas?") ni en el documento de 2014 de los autores de CoreNLP;
herramientas que combinan varias librerías NLP incluyendo Stanford CoreNLP usan otra lib para la identificación del lenguaje, por ejemplo DKPro Core ASL ; también otros usuarios que hablan de identificación de lenguaje y CoreNLP no mencionan esta capacidad
el archivo fuente de CoreNLP contiene clases de Language , pero nada relacionado con la identificación del idioma: puede verificar manualmente la 84 aparición de la palabra ''idioma'' aquí.

Pruebe TIKA , o TextCat , o Language Detection Library for Java (informan "99% de precisión en 53 idiomas").

En general, la calidad depende del tamaño del texto de entrada: si es lo suficientemente largo (por ejemplo, al menos varias palabras y no especialmente elegido), la precisión puede ser bastante buena, aproximadamente del 95%.