nlp machine-learning text-analysis sentiment-analysis training-data

nlp - Datos de entrenamiento para el análisis de sentimiento



¿Dónde puedo obtener un corpus de documentos que ya han sido clasificados como positivos / negativos para el sentimiento en el dominio corporativo? Quiero un gran corpus de documentos que proporcionen reseñas para las empresas, como reseñas de compañías proporcionadas por analistas y medios de comunicación.

Encuentro corpora que tienen reseñas de productos y películas. ¿Existe un corpus para el dominio comercial que incluya reseñas de empresas que coincidan con el idioma de los negocios?


Esta es una lista que escribí hace unas semanas, de mi blog . Algunos de estos conjuntos de datos se han incluido recientemente en la plataforma NLTK Python.

Lexicons

Conjuntos de datos

Referencias


No estoy al tanto de que dicho corpus esté disponible de forma gratuita, pero podría probar un método no supervisado en un conjunto de datos sin etiqueta.


Puede obtener una amplia selección de revisiones en línea de Datafiniti. La mayoría de las revisiones vienen con datos de calificación, lo que proporcionaría más granularidad en el sentimiento que en positivo / negativo. Aquí hay una lista de empresas con comentarios , y aquí hay una lista de productos con reseñas .


Si tiene algunos recursos (canales de medios, blogs, etc.) sobre el dominio que desea explorar, puede crear su propio corpus. Hago esto en Python:

  • usando Beautiful Soup http://www.crummy.com/software/BeautifulSoup/ para analizar el contenido que quiero clasificar.
  • separe esas oraciones que significan opiniones positivas / negativas sobre las empresas.
  • Use NLTK para procesar estas oraciones, tokenize words, POS tagging, etc.
  • Use NLTK PMI para calcular bigrams o trigramas mos frecuentes en una sola clase

Crear corpus es un trabajo arduo de preprocesamiento, verificación, etiquetado, etc., pero tiene los beneficios de preparar un modelo para un dominio específico que muchas veces aumenta la precisión. Si puede obtener un corpus ya preparado, continúe con el análisis de opinión;)


http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

Puede usar twitter, con sus emoticonos, así: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

Espero que te ayude a empezar. Hay más en la literatura, si le interesan subtareas específicas como la negación, el alcance del sentimiento, etc.

Para enfocarse en las empresas, puede emparejar un método con la detección de temas o, a bajo costo, muchas menciones de una compañía determinada. O puede obtener sus datos anotados por Mechanical Turkers.