nlp - tiempo - Palabras naturales de la lengua inglesa
lengua inglesa carrera (6)
Necesito la lista de palabras en inglés más exhaustiva que puedo encontrar para varios tipos de operaciones de procesamiento de lenguaje, pero no pude encontrar nada en Internet que tenga la calidad suficiente.
Hay 1,000,000 palabras en el idioma inglés que incluyen palabras extranjeras y / o técnicas.
¿Puede sugerir esa fuente (o cerca de 500 mil palabras) que se puede descargar de Internet que quizás esté un poco categorizada? ¿Qué entrada usas para tus aplicaciones de procesamiento de lenguaje?
¿Quién te dijo que había 1 millón de palabras? Según Wikipedia , el Oxford English Dictionary solo tiene 600,000. Y el OED intenta incluir todos los términos técnicos y de jerga que se usan.
Investigué para Purdue sobre el dominio controlado / natural del inglés y el procesamiento del conocimiento del dominio del idioma.
Me gustaría echar un vistazo al proyecto intentar: http://attempto.ifi.uzh.ch/site/description/ que es un proyecto para ayudar a construir un inglés natural controlado.
Puede descargar su léxico completo de la palabra en: http://attempto.ifi.uzh.ch/site/downloads/files/clex-6.0-080806.zip tiene ~ 100,000 palabras en inglés natural.
También puede proporcionar su propio léxico para palabras específicas del dominio, esto es lo que hicimos en nuestra investigación. Ofrecen servicios web para analizar y formatear el texto en inglés natural.
Las listas de palabras de Kevin son lo mejor que conozco solo por listas de palabras.
WordNet es mejor si quieres saber que las cosas son sustantivos, verbos, etc., sinónimos, etc.
` El engaño del" millón de palabras "avanza '', veo ;-)
Cómo hacer que sus listas de palabras sean más largas: dado un sustantivo, agregue cualquiera de los siguientes a él: no-, pseudo-, semi-, -arific, -geek, ...; mutatis mutandis para verbos, etc.
Pruebe directamente los extractos de Wikipedia: http://dbpedia.org
No hay muchas palabras básicas (171k según este- oxford . Que es lo que recuerdo que me contaron en mi programa de CS en la universidad. Pero si incluyo todas las formas de las palabras, entonces aumenta considerablemente.
Dicho eso, ¿por qué no hacer uno tú mismo? Obtenga un volcado de Wikipedia y analícelo y cree un conjunto de todos los tokens que encuentre.
Sin embargo, espere errores ortográficos, como en todas las fuentes de multitud, habrá errores.