nlp - Datos de entrenamiento para el análisis de sentimiento
machine-learning text-analysis (6)
Aquí hay algunos más;
http://inclass.kaggle.com/c/si650winter11
http://alias-i.com/lingpipe/demos/tutorial/sentiment/read-me.html
¿Dónde puedo obtener un corpus de documentos que ya han sido clasificados como positivos / negativos para el sentimiento en el dominio corporativo? Quiero un gran corpus de documentos que proporcionen reseñas para las empresas, como reseñas de compañías proporcionadas por analistas y medios de comunicación.
Encuentro corpora que tienen reseñas de productos y películas. ¿Existe un corpus para el dominio comercial que incluya reseñas de empresas que coincidan con el idioma de los negocios?
Esta es una lista que escribí hace unas semanas, de mi blog . Algunos de estos conjuntos de datos se han incluido recientemente en la plataforma NLTK Python.
Lexicons
Opinion Lexicon por Bing Liu
- URL : http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#lexicon
- DOCUMENTOS : Minería y resumen de opiniones de clientes
- NOTAS : Incluido en la plataforma NLTK Python
Léxico de subjetividad de MPQA
SentiWordNet
- URL : http://sentiwordnet.isti.cnr.it
- NOTAS : Incluido en la plataforma NLTK Python
Harvard General Inquirer
Indagación lingüística y conteos de palabras (LIWC)
- URL : http://www.liwc.net
Vader Lexicon
Conjuntos de datos
Conjuntos de datos MPQA
- URL : http://mpqa.cs.pitt.edu
NOTAS : Licencia pública GNU.
- Datos de debate político
- Datos de Debate del producto
- Anotaciones de sentido subjetivo
Sentiment140 (Tweets)
STS-Gold (Tweets)
- URL : http://www.tweenator.com/index.php?page_id=13
- DOCUMENTOS : conjuntos de datos de evaluación para el análisis del sentimiento de Twitter (Saif, Fernández, He, Alani)
- NOTAS : Como Sentiment140, pero el conjunto de datos es más pequeño y con anotadores humanos. Viene con 3 archivos: tweets, entidades (con su opinión) y un conjunto agregado.
Conjunto de datos de revisión del cliente (reseñas de productos)
- URL : http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets
- DOCUMENTOS : Minería y resumen de opiniones de clientes
- NOTAS : Título de la revisión, característica del producto, etiqueta positiva / negativa con fortaleza de opinión, otra información (comparaciones, resolución de pronombres, etc.)
Incluido en la plataforma NLTK Python
Conjunto de datos de pros y contras (oraciones de pros y contras)
- URL : http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets
- DOCUMENTOS : Opiniones mineras en oraciones comparativas (Ganapathibhotla, Liu 2008)
- NOTAS : una lista de oraciones etiquetadas
<pros>
o<cons>
Incluido en la plataforma NLTK Python
Oraciones comparativas (Reseñas)
- URL : http://www.cs.uic.edu/~liub/FBS/sentiment-analysis.html#datasets
- DOCUMENTOS : identificación de oraciones comparativas en documentos de texto (Nitin Jindal y Bing Liu) , características de opinión minera en reseñas de clientes (Minqing Hu y Bing Liu)
- NOTAS : Sentencia, frase etiquetada POS, entidades, tipo de comparación (no igual, equitativo, superlativo, no gradable)
Incluido en la plataforma NLTK Python
Sanders Analytics Twitter Sentiment Corpus (Tweets)
5513 tweets clasificados a mano con 4 temas diferentes. Debido a los ToS de Twitter, se incluye un pequeño script de Python para descargar todos los tweets. Las clasificaciones de sentimientos en sí mismas se proporcionan de forma gratuita y sin restricciones. Se pueden usar para productos comerciales. Ellos pueden ser redistribuidos. Pueden ser modificados.
Tweets en español (Tweets)
SemEval 2014 (Tweets)
NO DEBE volver a distribuir los tweets, las anotaciones o el corpus obtenido (del archivo Léame)
Varios conjuntos de datos (reseñas)
Varios conjuntos de datos n. ° 2 (Reseñas)
Referencias
- Keenformatics - Léxicos y conjuntos de datos de análisis de sentimiento (mi blog)
- Experiencia personal
No estoy al tanto de que dicho corpus esté disponible de forma gratuita, pero podría probar un método no supervisado en un conjunto de datos sin etiqueta.
Puede obtener una amplia selección de revisiones en línea de Datafiniti. La mayoría de las revisiones vienen con datos de calificación, lo que proporcionaría más granularidad en el sentimiento que en positivo / negativo. Aquí hay una lista de empresas con comentarios , y aquí hay una lista de productos con reseñas .
Si tiene algunos recursos (canales de medios, blogs, etc.) sobre el dominio que desea explorar, puede crear su propio corpus. Hago esto en Python:
- usando Beautiful Soup http://www.crummy.com/software/BeautifulSoup/ para analizar el contenido que quiero clasificar.
- separe esas oraciones que significan opiniones positivas / negativas sobre las empresas.
- Use NLTK para procesar estas oraciones, tokenize words, POS tagging, etc.
- Use NLTK PMI para calcular bigrams o trigramas mos frecuentes en una sola clase
Crear corpus es un trabajo arduo de preprocesamiento, verificación, etiquetado, etc., pero tiene los beneficios de preparar un modelo para un dominio específico que muchas veces aumenta la precisión. Si puede obtener un corpus ya preparado, continúe con el análisis de opinión;)
http://www.cs.cornell.edu/home/llee/data/
http://mpqa.cs.pitt.edu/corpora/mpqa_corpus
Puede usar twitter, con sus emoticonos, así: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf
Espero que te ayude a empezar. Hay más en la literatura, si le interesan subtareas específicas como la negación, el alcance del sentimiento, etc.
Para enfocarse en las empresas, puede emparejar un método con la detección de temas o, a bajo costo, muchas menciones de una compañía determinada. O puede obtener sus datos anotados por Mechanical Turkers.