www tutorial org library graphs ejemplo book python nlp

python - tutorial - spacy



¿Reconocer el idioma de un texto corto? (6)

¿Has consultado http://ling.unizd.hr/~dcavar/LID/ y http://en.wikipedia.org/wiki/Language_identification ?

Tengo una lista de artículos, y cada artículo tiene su propio título y descripción. Desafortunadamente, de las fuentes que estoy usando, no hay manera de saber en qué idioma están escritas.

Además, el texto no está completamente escrito en 1 idioma; Casi siempre las palabras en inglés están presentes.

Supongo que necesitaría las bases de datos de diccionarios almacenadas en mi máquina, pero parece un poco impráctico. ¿Qué sugieres que haga?


En general, estás buscando hacer una identificación de nGram. Como esta es una pregunta de Python, puede consultar http://github.com/koblas/ngramj-python que es un puerto de Python puro de la biblioteca ngram de java (otro proyecto de código abierto).

Falta la documentación, pero tiene muy buena precisión.



Sé que esta es una pregunta antigua, pero en caso de que la gente se encuentre con esto mientras investiga opciones para esta tarea, vale la pena mencionar que otra herramienta es langid .


Si la recomendación de neos tampoco es práctica, intentaría algo como esto:

En muchos idiomas hay algunas palabras clave que están en muchas oraciones y que a menudo no se encuentran en otros idiomas.

Ejemplo: "The" en inglés, "der", "die", "das" en alemán, ....

Encuentra tales palabras y trata de encontrarlas en tus textos. Puede ser un poco borroso por fin, por ejemplo, cuando encuentre "the" y "der", podría ser un texto en alemán que contenga algunas oraciones en inglés. Al menos con suficientes palabras de tus idiomas de destino, podrías llegar a una alta tasa de éxito.