una tiempo son que provocan perdida los linea lenguas lengua las inglesa ingles indigenas idioma historia factores evolucion desaparezca cuales contemporaneo consecuencias carrera nlp
http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip

nlp - tiempo - Palabras naturales de la lengua inglesa



lengua inglesa carrera (6)

Necesito la lista de palabras en inglés más exhaustiva que puedo encontrar para varios tipos de operaciones de procesamiento de lenguaje, pero no pude encontrar nada en Internet que tenga la calidad suficiente.

Hay 1,000,000 palabras en el idioma inglés que incluyen palabras extranjeras y / o técnicas.

¿Puede sugerir esa fuente (o cerca de 500 mil palabras) que se puede descargar de Internet que quizás esté un poco categorizada? ¿Qué entrada usas para tus aplicaciones de procesamiento de lenguaje?


¿Quién te dijo que había 1 millón de palabras? Según Wikipedia , el Oxford English Dictionary solo tiene 600,000. Y el OED intenta incluir todos los términos técnicos y de jerga que se usan.


Investigué para Purdue sobre el dominio controlado / natural del inglés y el procesamiento del conocimiento del dominio del idioma.

Me gustaría echar un vistazo al proyecto intentar: http://attempto.ifi.uzh.ch/site/description/ que es un proyecto para ayudar a construir un inglés natural controlado.

Puede descargar su léxico completo de la palabra en: http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip tiene ~ 100,000 palabras en inglés natural.

También puede proporcionar su propio léxico para palabras específicas del dominio, esto es lo que hicimos en nuestra investigación. Ofrecen servicios web para analizar y formatear el texto en inglés natural.





No hay muchas palabras básicas (171k según este- oxford . Que es lo que recuerdo que me contaron en mi programa de CS en la universidad. Pero si incluyo todas las formas de las palabras, entonces aumenta considerablemente.

Dicho eso, ¿por qué no hacer uno tú mismo? Obtenga un volcado de Wikipedia y analícelo y cree un conjunto de todos los tokens que encuentre.

Sin embargo, espere errores ortográficos, como en todas las fuentes de multitud, habrá errores.