w3schools varias superponer studio lineas graficos graficas example statistics machine-learning probability-theory

statistics - varias - Ejemplo para datos no-iid



superponer graficas en r (4)

He leído algunos artículos sobre datos que no son de iid. Basado en Wikipedia, sé lo que es la información iid (distribución independiente e idéntica), pero todavía estoy confundido sobre lo que no es iid. Hice algunas investigaciones, pero no puedo encontrar una definición clara y un ejemplo de ello. ¿Alguien me puede ayudar en esto?


Desde wikipedia iid :

"Independiente e idénticamente distribuido" implica que un elemento en la secuencia es independiente de las variables aleatorias que le precedieron. De esta forma, una secuencia de IID es diferente de una secuencia de Markov, donde la distribución de probabilidad para la n-ésima variable aleatoria es una función de la variable aleatoria previa en la secuencia (para una secuencia de Markov de primer orden).

Como un simple ejemplo sintético, suponga que tiene un dado especial con 6 caras. Si la última vez que el valor facial es 1, la próxima vez que lo arroje, obtendrá un valor facial de 1 con una probabilidad de 0.5 y un valor facial de 2,3,4,5,6 cada uno con una probabilidad de 0.1. Sin embargo, si la última vez que el valor facial no es 1, obtendrá la misma probabilidad de cada cara. P.ej,

p(face(0) = k) = 1/6, k = 1,2,3,4,5,6 -- > initial probability at time 0. p(face(t) = 1| face(t-1) = 1) = 0.5, p(face(t) = 1| face(t-1) != 1) = 1/6 p(face(t) = 2| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6 p(face(t) = 3| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6 p(face(t) = 4| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6 p(face(t) = 5| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6 p(face(t) = 6| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6 face(t) stands for the face value of t-th throw.

Este es un ejemplo cuando la distribución de probabilidad para la n-ésima variable aleatoria (el resultado del enésimo lanzamiento) es una función de la variable aleatoria previa en la secuencia.

Veo datos no idénticos y no independientes (p. Ej., Markovian) en algunos escenarios de aprendizaje automático, que pueden considerarse como ejemplos no-iid.

  • El aprendizaje en línea con transmisión de datos, cuando la distribución de los ejemplos entrantes cambia con el tiempo: los ejemplos no se distribuyen de forma idéntica. Supongamos que tiene un módulo de aprendizaje para predecir el porcentaje de clics de los anuncios en línea, la distribución de los términos de consulta que provienen de los usuarios está cambiando durante el año en función de las tendencias estacionales. Los términos de consulta en verano y en la temporada de Navidad deben tener una distribución diferente.

  • Aprendizaje activo, donde el alumno solicita etiquetas para datos específicos: también se infringe el supuesto de independencia.

  • Aprender / hacer inferencia con modelos gráficos. Las variables están conectadas a través de relaciones de dependencia.


De una manera muy ondulada (ya que supongo que ha leído la definición técnica), iid significa que si tiene un conjunto de valores, entonces todas las permutaciones de esos valores tienen la misma probabilidad. Entonces, si tengo 3,6,7 entonces la probabilidad de que esto sea igual a la probabilidad de 7,6,3 es igual a 6,7,3 etc. Esto significa que cada valor no depende de otros valores en la secuencia.

Como un ejemplo contrario, imagine la secuencia x donde cada elemento x_i es uno más alto o uno más bajo que el elemento anterior, con una probabilidad del 50-50 de cuál de estos ocurre. Entonces una secuencia posible es 1,2,3,2,3,4,3,2 . Debería quedar claro que hay algunas permutaciones de esta secuencia que no son equiprobables: en particular, las secuencias que comienzan en 1,4,... tienen probabilidad cero. En su lugar, puede considerar pares de la forma x_i | x_i-1 x_i | x_i-1 para ser iid si lo desea.


Literalmente, non iid debería ser lo opuesto a iid de cualquier manera, independent o identical .

Entonces, por ejemplo, si una moneda se voltea, deje que X sea ​​la variable aleatoria del evento, que el resultado es la cola, Y es la variable aleatoria del evento, el resultado es la cabeza, entonces X e Y son definitivamente dependientes. Ellos pueden ser decididos el uno por el otro.

En cuanto a lo no identical , una vez que las distribuciones de dos variables aleatorias no son las mismas, pueden llamarse no idénticas.

Por lo tanto, cualquiera de las situaciones ocurre, puede obtener un ejemplo de caso non iid .


Aquí hay un ejemplo de un problema que no es independiente. Definición del problema: supongamos que tiene una imagen en 2D con una mancha. Desea crear un parche clasificador que funcione con parches de imagen 5X5 como entrada y clasifique el píxel central como "límite" o "sin límite". Su requisito es que las clasificaciones resultantes de cada parche definan un contorno continuo (un píxel de espesor) que trace con precisión alrededor del borde del blob. Esencialmente, un detector de bordes. Supongamos también que un ligero error de extraviar el límite por unos pocos píxeles no importa, sin embargo, la continuidad del contorno del límite sí importa (no debería tener ningún corte).

Cómo esto no es independiente: Ejemplo1: suponga que tiene un buen contorno de solución A. Otra solución válida, B, que es simplemente A desplazada a la derecha por 2 píxeles, tenga en cuenta que la mayoría de las clasificaciones a nivel de píxel son diferentes, pero el la solución aún es válida Ejemplo 2: suponga que obtiene la solución A válida, excepto que solo un píxel de salida se desplaza 2 píxeles hacia la derecha para crear la salida C. Esta vez tiene un contorno roto y la solución no es válida. Esto demuestra cómo el clasificador necesita saber sobre las respuestas a otros ejemplos de píxeles cercanos para determinar si un píxel en particular debe clasificarse como límite o no.