testing - subconjuntos - teoria de conjuntos operaciones
¿Podemos concluir que un conjunto podrĂa no ser aleatorio al verificar su subconjunto? (1)
El conjunto A incluye 1000 números. Comprobé que la mitad de los números en este conjunto son pares.
Extraje el subconjunto B del conjunto A de la siguiente manera: cualquier número en el conjunto A que comience con 1 también se encuentra en el conjunto B. (Todos los números en B comienzan con 1).
Comprobé que más de la mitad de los números en el conjunto B son pares.
La mitad de los números en A son iguales, ¿deberíamos esperar lo mismo para B? Pero más de la mitad de B son pares. Entonces, ¿puede concluir que el conjunto A no es aleatorio?
Si el 60% de B son pares, ¿podemos concluir que A no se genera al azar?
¿Cómo si el 70% de B son impares?
Eso depende enteramente de cuán grande es la muestra.
De la probabilidad básica, si p es la probabilidad de obtener un "éxito" (el resultado en el que se enfoca) de un ensayo binario, q = (1-p) es la probabilidad de obtener un "fracaso" (el resultado alternativo) . Deje n ser el número de ensayos. Si los ensayos son independientes, el número de resultados X tiene una distribución binomial con los parámetros nyp, y p-hat = X / n es un estimador insesgado para p. La media y la varianza de p-hat son p y pq / n, respectivamente, y para tamaños de muestra suficientemente grandes la distribución converge a gaussiana (la curva en forma de campana). Sobre esta base, siempre que pyq sean suficientemente mayores que 0, podemos decir que en experimentos repetidos, aproximadamente el 95% de ellos debe estar dentro de una distancia de 1.96 * sqrt (pq / n) de la media verdadera. Esa distancia se llama margen de error (ME).
Estás conjeturando que p = 1/2. En consecuencia, su margen de error es ME = 1.96 * sqrt (pq / n) = 0.98 / sqrt (n). Puede invertir para averiguar qué tamaño de muestra necesita para obtener un ME particular: n = techo ((0.98 / ME) 2 ).
Enchufar algunos márgenes de error particulares:
- ME = 0.20 ==> n = 25 (límite para creer la convergencia Gaussiana)
- ME = 0.10 ==> n = 97
- ME = 0.05 ==> n = 385
- ME = 0.03 ==> n = 1068
- ME = 0.01 ==> n = 9604
En otras palabras, cuanto más pequeño sea su margen de error, mayor será el tamaño de muestra requerido, y el requisito de muestreo crecerá de forma cuadrática.
Esos dos últimos son relevantes para las encuestas políticas. Es común tomar tamaños de muestra alrededor de 1000 e informar que las estimaciones tienen un margen de error de & pm; 3%. A la gente le gusta intuitivamente & pm; 1%, pero tomaría 9 veces el muestreo y se considera que no es rentable.
Retomando esto a su pregunta, basado en el tamaño de su subconjunto puede hacer una declaración probabilística sobre cuán plausible es su conjetura de que p = 1/2, pero tomará cientos o miles de valores ligado.
Además, tenga en cuenta que no uniforme o no independiente no son lo mismo que no aleatorio. La prueba que intenta realizar es la uniformidad de los bits seleccionados, y no le dice nada sobre los otros bits ni sobre la independencia de los datos.