nlp - PNL: oración cualitativamente "positiva" frente a "negativa"
text-analysis (2)
Necesito su ayuda para determinar el mejor enfoque para analizar oraciones específicas de la industria (es decir, reseñas de películas) para "positivo" frente a "negativo". He visto bibliotecas como OpenNLP antes, pero es de muy bajo nivel, solo me da la composición básica de las oraciones; lo que necesito es una estructura de alto nivel: espero que con listas de palabras, con suerte, que pueda ser entregado en mi conjunto de datos
¡Gracias!
Lo que está buscando es comúnmente denominado Análisis de Sentimiento . Normalmente, el análisis de sentimiento no es capaz de manejar delicadas sutilezas, como el sarcasmo o la ironía, pero le va bastante bien si le arroja un gran conjunto de datos.
El análisis de sentimiento generalmente necesita bastante preprocesamiento. Al menos tokenización, detección de límite de frase y etiquetado de parte de la voz. A veces, el análisis sintáctico puede ser importante. Hacerlo correctamente es toda una rama de la investigación en lingüística computacional, y no te aconsejaría que encuentres tu propia solución a menos que te tomes tu tiempo para estudiar el campo primero.
OpenNLP tiene algunas herramientas para ayudar en el análisis de los sentimientos, pero si quiere algo más serio, debe consultar el kit de herramientas de LingPipe . Tiene algunas funciones integradas de SA y un buen tutorial . Y puede entrenarlo en su propio conjunto de datos, pero no piense que es completamente trivial :-).
Google para el término probablemente también le dará algunos recursos para trabajar. Si tiene alguna pregunta más específica, solo pregunte: estoy viendo la etiqueta nlp de cerca ;-)
Algunos enfoques del análisis de sentimiento usan estrategias populares en otras tareas de clasificación de texto. El más común es transformar su revisión de película en un vector de palabra y alimentarlo en un algoritmo clasificador como datos de entrenamiento. La mayoría de los paquetes populares de minería de datos pueden ayudarte aquí. Puede echar un vistazo a este tutorial sobre clasificación de sentimientos que ilustra cómo hacer un experimento utilizando el kit de herramientas de código abierto RapidMiner .
Por cierto, hay un buen conjunto de datos disponibles para fines de investigación relacionados con la detección de opinión sobre las críticas de películas. Se basa en las evaluaciones de los usuarios de IMDB, y puede consultar muchos trabajos de investigación relacionados en el área y cómo usan el conjunto de datos.
Vale la pena tener en cuenta que la efectividad de estos métodos solo se puede juzgar desde un punto de vista estadístico, por lo que puede suponer que habrá clasificaciones erróneas y casos en los que la opinión es difícil de detectar. Como ya se ha notado en este hilo, detectar cosas como la ironía y el sarcasmo puede ser muy difícil.