math machine-learning probability bayesian collective-intelligence

math - Forma de inferir el tamaño de la base de usuarios de un sitio a partir del muestreo de nombres de usuario tomados



machine-learning probability (3)

¡Creo que esta es una buena idea!

Es posible que pueda armar un conjunto de datos utilizando UserNameCheck.com para algunos nombres de usuario diferentes y hacer referencias cruzadas de los resultados con los tamaños de base de usuarios establecidos de los sitios que los distribuyen.

Nota : ese sitio web no parece verificar si los nombres de usuario son válidos para el sitio, por ejemplo, cree que Gmail le permite registrar "[email protected]" aunque sea demasiado corto.

Supongamos que quiere estimar el tamaño de una base de usuarios de un sitio que no divulga esta información.

Es más probable que las personas hayan adquirido diferentes nombres de usuario con diferentes probabilidades. Por ejemplo, si el nombre de usuario ''nick'' no existe en el sistema, es probable que tenga una base de usuarios extremadamente pequeña. Si se toma el nombre de usuario ''starbaby'', es probable que sea un sitio mucho más grande. Parece un problema Bayesiano directo.

Existe el problema de que diferentes sitios pueden tener un espacio diferente de nombres de usuario permitidos. El mayor problema sería la legalidad de los personajes comunes, como los espacios, imagino. Otro problema que podría manchar la distribución anterior es si el sitio sugiere nombres cuando se toma el que desea, o deja que piense en un nombre más creativo usted mismo.

¿Cómo podría crear un conjunto de entrenamiento de la frecuencia de ocurrencia de nombres de usuario en diferentes sistemas de tamaño? ¿Hay alguna forma de usar Bayes para hacer estimaciones numéricas en lugar de clasificación en categorías de ancho fijo?


La única forma es obtener un gran conjunto de nombres de usuario tomados en los sistemas para los que conoces el tamaño de la base de usuarios. Los datos pueden estar sesgados en las bases de usuarios donde ciertos nombres son más comunes. Incluso una pequeña base de usuarios de un foro de El señor de los anillos probablemente contenga el nombre de usuario Strider, por ejemplo.


Lo que debe hacer es estimar con precisión la probabilidad de que un determinado nombre de usuario esté presente dada la cantidad de usuarios registrados. Digamos que N es el número de usuarios y u = 1 si el usuario u está presente y 0 si están ausentes.

En primer lugar, suponga que las distribuciones de probabilidad para cada nombre de usuario son independientes entre sí. Esto no va a ser cierto, y ya se le ocurrió una razón, pero probablemente sea necesario, ya que hace que la recopilación de datos y las matemáticas sean mucho más fáciles.

Necesitará una gran cantidad de datos de sitios con nombres de usuarios registrados y la cantidad total de usuarios de ese sitio. Ahora, tome cualquier nombre de usuario específico e imagine sus puntos de datos en una trama en 2d (con N en x y u en y), habrá una línea horizontal de puntos en y = 0 y otra en y = 1. Puedes bin el eje x como sugieres y tomar la coordenada media y de todos los puntos de datos en el bin para obtener una función discreta, o podrías intentar ajustar los puntos en el gráfico a alguna clase de funciones. Realmente no sé cuál sería esa clase de funciones, tal vez algún tipo de ley de poder. (Estoy pensando en la ley de Zipf ).

Ahora tiene las distribuciones de probabilidad para aplicar la regla de Bayes. No sé qué tipo de prioridad para N querrías usar. Una distribución uniforme (hasta un gran número) no supondría nada, pero supongo que la mayoría de los sitios tienen una pequeña base de usuarios.

Sospecho que para hacer que esto funcione, cuando muestree usuarios de un sitio tendrá que hacerlo para un conjunto específico de usuarios. Apuesto a que la popularidad de los nombres de los usuarios va a ser muy larga, por lo que una muestra aleatoria de usuarios te dará muchos nombres con poca frecuencia de uso y, por lo tanto, mucha evidencia poco informativa.

EDIT : tuve otro pensamiento; en la mayoría de los foros (y en ) los usuarios tienen identificaciones de usuario consecutivas, por lo que puede usar un único sitio con una gran cantidad de usuarios para proporcionarle estimaciones para todos los N.