nlp - definicion - (humano) Idioma de un documento

title html definicion (5)

Al ejecutar una búsqueda en Google para " determinar el idioma del documento ", encontré muchos sitios diferentes que te ayudarán. El tercer enlace en la primera página finalmente me llevó a una función en Google Code API que es exactamente lo que necesita.

¿Hay alguna manera (un programa, una biblioteca) de saber aproximadamente en qué idioma está escrito un documento?

Tengo un montón de documentos de texto (~ 500K) en idiomas mixtos para importar en un CMS habilitado i18n (Drupal).

No necesito coincidencias perfectas, solo algunas conjeturas.

La API de traducción de Google es genial y tiene una interfaz REST. Pero necesito enviar MUCHO documento GRANDE (sí, podría usar un extracto) e, incluso si Google es Google, no creo que sea justo.

Los documentos tampoco son míos, y le pregunto a mi cliente si está bien enviarlos a un tercero (incluso si, tarde o temprano, G los obtendrá;)).

Creo que iré a través del camino de Perl ...

Yo diría que su mejor opción es buscar palabras clave (artículos, ese tipo de cosas) que sean exclusivas de los idiomas que está buscando. "Un" se mostrará en español y francés, por ejemplo, pero "une" es identificable francés, mientras que "unos", por ejemplo, es identificablemente español. Los diacríticos también son útiles: verás "ñ" en español y posiblemente en portugués, "ç" en francés y algunos otros ... ese tipo de cosas.

editar - La solución de Paul es probablemente la mejor; parece que usa métodos como los que describí, más algunos adicionales.

Hay una manera bastante sencilla de hacerlo, dado que tiene datos de corpus en todos los diferentes idiomas que necesitará identificar. Se llama modelado n-gramo. Creo que Lingua :: Identify ya lo hace, así que esa es tu mejor opción en lugar de implementar la tuya.

Parece que hay un módulo Perl para esto: Lingua :: Identify

Pablo.