machine-learning nlp medical named-entity-recognition

machine learning - Enfermedad nombrada reconocimiento de entidad



machine-learning nlp (3)

Ver http://www.ebi.ac.uk/webservices/whatizit/info.jsf

Whatizit es un sistema de procesamiento de texto que le permite realizar tareas de minería de textos en texto. Las tareas vienen definidas por las tuberías en la lista desplegable de la ventana de arriba y el texto se puede pegar en el área de texto.

También puede preguntar a las bioestadísticas: http://www.biostars.org/show/questions/

Tengo un montón de documentos de texto que describen enfermedades. Esos documentos son en la mayoría de los casos bastante cortos y a menudo solo contienen una sola oración. Un ejemplo se da aquí:

La hipertensión pulmonar primaria es una enfermedad progresiva en la que la oclusión generalizada de las arterias pulmonares más pequeñas conduce a un aumento de la resistencia vascular pulmonar y, posteriormente, a la insuficiencia ventricular derecha.

Lo que necesito es una herramienta que encuentre todos los términos de la enfermedad (por ejemplo, "hipertensión pulmonar" en este caso) en las oraciones y los asigna a un vocabulario controlado como MeSH .

¡Gracias de antemano por sus respuestas!


hay muchas herramientas para hacer eso. algunos populares:

la mayoría de ellos vienen con algunos modelos predefinidos, es decir, ya han sido entrenados en algunos conjuntos de datos generales (artículos de noticias, etc.). sin embargo, sus textos son bastante específicos, por lo que es posible que primero desee constituir un corpus y volver a entrenar una de esas herramientas, para ajustarlo a sus datos.

más simplemente, como primera prueba, puede probar un enfoque basado en el diccionario: diseñe una lista de nombres de entidades y realice una coincidencia exacta o aproximada. por ejemplo, esta operación está descrita en el tutorial de LingPipe .


Aquí hay dos tuberías diseñadas específicamente para el análisis de documentos médicos:

Ambos usan UMLS, el sistema de lenguaje médico unificado, y por lo tanto requieren que usted tenga una licencia (gratuita). Ambos son Java y más o menos fáciles de configurar.