medir hashtracking hashtags gratis estadisticas contar analisis facebook twitter nlp social-media

hashtracking - medir hashtag en facebook



¿Herramientas para obtener la intención de los estados de Twitter? (3)

El problema con NLP no es el algoritmo (aunque eso es un problema), el problema son los recursos. Hay algunas herramientas de análisis superficial de código abierto (eso es todo lo que necesitaría para intentar) que podría usar, pero analizar miles o millones de tweets costaría una fortuna en el tiempo de la computadora.

Por otro lado, como dijiste, no todos los tweets tienen hashtags y no hay ninguna promesa de que sean relevantes.

Tal vez pueda usar una combinación de búsqueda por palabra clave para filtrar algunas posibilidades (las que tienen la densidad más alta de palabras clave) y luego usar un análisis de datos más profundo para elegir el 1 o el 2. Esto mantendría los recursos de la computadora al mínimo y usted debería capaz de obtener tweets relevantes.

Estoy considerando un proyecto en el cual el contenido de una publicación se ve aumentado por los tweets relevantes disponibles públicamente de personas en el área. ¿Pero cómo podría encontrar programáticamente los Tweets relevantes? Sé que generar una estructura que represente el significado del lenguaje natural es más o menos el santo grial de la PNL, pero tal vez haya alguna herramienta que pueda usar para al menos reducirla un poco.

Alternativamente, podría usar hashtags. Pero eso requiere más trabajo en nombre de los usuarios. No estoy muy familiarizado con Twitter: ¿la mayoría de las personas usa hashtags (incluso para problemas de menor escala) o confiaría en que cortarían un gran segmento de datos?

También me interesaría captar los estados de Facebook (con el permiso del póster, por supuesto), y el uso de hashtag es bastante raro en Facebook.

Podría usar la búsqueda simple de palabras clave para restringir groseramente el campo, pero es más probable que requiera intervención humana para determinar qué tweets se deben publicar junto con el contenido.

Ideas? Ha hecho esto antes?


Gran pregunta Creo que para Twitter tu mejor opción es usar hashtags porque de lo contrario necesitas crear algoritmos o encontrar algoritmos existentes que realicen análisis de idioma y mejoren con el tiempo en función de los comentarios / comentarios de los usuarios.

Para Facebook, puedes hacer lo que Bing implementó hace un tiempo. Como mencioné en este artículo aquí: http://www.socialtimes.com/2010/06/bing-adds-facebook-and-twitter-features-steps-up-social-services/

Escribí: por ejemplo, una búsqueda de "Finales de la NBA" devolverá el contenido de la página de fan de Facebook, incluidas las publicaciones de una estación de televisión local. Por lo tanto, si intenta aumentar el contenido relacionado con la NBA, puede hacer una búsqueda similar a la que proporciona Bing, buscando contenido de la página de fans disponible públicamente de la misma manera en que las arañas los indexan para los motores de búsqueda. No soy desarrollador, así que no estoy seguro de las complejidades, pero sé que se puede hacer.

También puede mostrar los enlaces compartidos populares de los usuarios que publican en "todos" y se agregarán para todo el contenido de la página que no sea de fan. No estoy seguro de si esto se limita a ser publicado para ''todos'' y / o ser ''popular'', aunque supongo que sí, pero puede verificarlo.

Espero que esto ayude


Hay dos formas sencillas de encontrar tweets relevantes para su contenido. La primera sería tratar esto como una tarea supervisada de clasificación de documentos , mediante la cual entrenarías a un clasificador para anotar tweets con un determinado conjunto predeterminado de etiquetas de tema. A continuación, puede usar las etiquetas para seleccionar los tweets que son apropiados para cualquier contenido que vaya a aumentar. Si no le gusta usar un conjunto predeterminado de temas, otro enfoque sería simplemente sumar tweets de acuerdo con su superposición semántica con su contenido. A continuación, podría mostrar los primeros n tweets con la superposición más semántica.

Clasificación supervisada del documento

El uso de la clasificación supervisada de documentos requeriría que tenga un conjunto de tweets de capacitación etiquetados con el conjunto de temas que utilizará. p.ej,

tuiteo: etiqueta de finales de la NBA : deportes
tweet: Googlers ahora permite usar Ruby! etiqueta: programación
tweet: comer la etiqueta del almuerzo : otro

Si desea recopilar datos de capacitación sin tener que etiquetar manualmente los tweets con temas, puede usar hashtags para asignar etiquetas de tema a los tweets. Los hashtags podrían ser idénticos a las etiquetas de tema, o podría escribir reglas para asignar tweets con ciertos hashtags a la etiqueta deseada. Por ejemplo, a los tweets etiquetados como #NFL o #NBA podría asignar una etiqueta de sports .

Una vez que tenga los tweets etiquetados por tema, puede usar cualquier cantidad de paquetes de software existentes para capacitar a un clasificador que asigne etiquetas a los nuevos tweets. Algunos paquetes disponibles incluyen:

Superposición semántica

Encontrar tweets utilizando su superposición semántica con su contenido evita la necesidad de un conjunto de entrenamiento etiquetado. La forma más simple de estimar la superposición semántica entre su contenido y los tweets que está anotando es utilizar un modelo de espacio vectorial . Para hacer esto, represente su documento y cada tweet como un vector con cada dimensión en el vector correspondiente a una palabra. El valor asignado a cada posición vectorial representa la importancia que tiene esa palabra para el significado del documento. Una manera de estimar esto sería simplemente usar la cantidad de veces que aparece la palabra en el documento. Sin embargo, es probable que obtengas mejores resultados utilizando algo como TF / IDF , que aumenta los términos raros y los pesos bajos más comunes.

Una vez que haya representado su contenido y los tweets como vectores, puede calificar los tweets por su similitud semántica con su contenido tomando la similitud del coseno del vector para su contenido y el vector para cada tweet.

No hay necesidad de codificar nada de esto usted mismo. Solo puede usar un paquete como Classifier4J, que incluye una clase VectorClassifier que califica la similitud del documento con un modelo de espacio vectorial.

Mejor superposición semántica

Un problema con el que se puede topar con los modelos de espacio vectorial que usan un término por dimensión es que no hacen un buen trabajo manejando palabras diferentes que significan más o menos lo mismo. Por ejemplo, un modelo así diría que no existe similitud entre The small automobile y A little car .

Existen marcos de modelado más sofisticados como el análisis semántico latente (LSA) y la asignación latente de dirichlet (LDA) que se pueden usar para construir representaciones más abstractas de los documentos que se comparan entre sí. Dichos modelos pueden considerarse como documentos de puntuación que no se basan en la superposición de palabras simples, sino más bien en términos de superposición en el significado subyacente de las palabras.

En términos de software, el paquete Semantic Vectors proporciona un marco escalable similar a LSA para similitud de documentos. Para LDA, puede usar la implementación de David Blei o la Caja de herramientas de Stanford Topic Modeling.