vocabulario usar twittear terminología sobre principiantes practica para libros iniciarse guia como aprender twitter nlp

twitter - usar - ¿Cómo manejar palabras de argot y formas cortas en Tweets como luv, kool y brb?



twitter terminología para principiantes (1)

Estoy haciendo un preprocesamiento de tweets usando Python. Sin embargo, muchas palabras usadas son formas cortas de otras palabras como luv, kool, etc. Y también abreviaturas como brb, ttyl, etc.

En este momento, solo puedo pensar en tener un gran Hashmap con palabras como claves y las palabras o expansiones reales como valores. ¿Hay alguna otra forma mejor de abordar esto usando NLP?

NOTA: Sé que la pregunta parece demasiado vaga. Pero por favor no lo reportes. He pedido esto para que los aficionados se puedan beneficiar de este conocimiento

PD: ¿Hay una lista de texto con buen formato que pueda descargar y usar? Los enlaces colocados son buenos, pero cuando los copio y los pegué, no están en un formato fácil de analizar


La única forma de descifrar abreviaturas es usar recursos externos. Es por eso que hay muchos diccionarios de abreviaturas para humanos. Aunque, los humanos pueden predecir el significado utilizando el conocimiento de sentido común y la abreviatura ya conocida, pero incluso lo hacen mal, así que no hay esperanza para PNL en este momento.

A veces también es posible encontrar definiciones de abreviaturas en el mismo texto, pero no es el caso de twitter o (not and) slang.

Entonces, sí, tienes que almacenar el mapeo desde acrónimos hasta sus expansiones. Para obtenerlos, busque el diccionario de acrónimos, por ejemplo, este diccionario de jerga , o eso , o eso , o eso, parece ser el más fácil de analizar .

En cuanto a otras jergas como ''kool'', puedes probar los algoritmos de corrección de hechizos, consulta la pregunta relacionada .