varias superponer studio lineas graficos graficas math r statistics

math - superponer - Explicar la función quantile() en R



superponer graficas en r (2)

Estás comprensiblemente confundido. Esa documentación es terrible. Tuve que volver al documento en el que está basado (Hyndman, RJ, Fan, Y. (noviembre de 1996). "Quantiles de muestra en paquetes estadísticos". American Statistician 50 (4): 361-365. doi:10.2307/2684934 ) para obtener un entendimiento. Comencemos con el primer problema.

donde 1 <= i <= 9, (jm) / n <= p <(j-m + 1) / n, x [j] es la estadística de orden j, n es el tamaño de la muestra, y m es una constante determinada por el tipo de cuantil de muestra. Aquí gamma depende de la parte fraccional de g = np + mj.

La primera parte proviene directamente del documento, pero lo que los escritores de la documentación omitieron fue que j = int(pn+m) . Esto significa que Q[i](p) solo depende de las dos estadísticas de orden más cercanas a ser p fracción del camino a través de las observaciones (ordenadas). (Para aquellos, como yo, que no están familiarizados con el término, las "estadísticas de orden" de una serie de observaciones son las series ordenadas).

Además, esa última frase es simplemente incorrecta. Debe leer

Aquí gamma depende de la parte fraccional de np + m, g = np + mj

En cuanto a m eso es sencillo. m depende de cuál de los 9 algoritmos se eligió. Así que al igual que Q[i] es la función de cuantiles, m debe considerarse m[i] . Para los algoritmos 1 y 2, m es 0, para 3, m es -1/2, y para los demás, eso está en la siguiente parte.

Para los tipos de cuantiles de muestra continua (4 a 9), los cuantiles de muestra se pueden obtener por interpolación lineal entre la estadística de orden k y p (k):

p (k) = (k - alfa) / (n - alfa - beta + 1), donde α y β son constantes determinadas por el tipo. Además, m = alfa + p (1 - alfa - beta) y gamma = g.

Esto es realmente confuso Lo que la documentación llama p(k) no es lo mismo que p de antes. p(k) es la posición de trazado . En el documento, los autores lo escriben como p k , lo que ayuda. Especialmente porque en la expresión de m , el p es el p original, y el m = alpha + p * (1 - alpha - beta) . Conceptualmente, para los algoritmos 4-9, los puntos ( p , x[k] ) se interpolan para obtener la solución ( p , Q[i](p) ). Cada algoritmo solo difiere en el algoritmo para el p k .

En cuanto al último bit, R solo dice lo que S usa.

El documento original da una lista de 6 "propiedades deseables para un cuantil de muestra", y establece una preferencia por el # 8 que satisface a todos por 1. El # 5 satisface a todos, pero no les gusta por otros motivos (es más fenomenológico que derivado de los principios). # 2 es lo que geeks no-estadísticos como yo considerarían los cuantiles y es lo que se describe en wikipedia.

Por cierto, en respuesta a la respuesta de Dreeves , Mathematica hace las cosas de manera significativamente diferente. Creo que entiendo el mapeo. Mientras que Mathematica es más fácil de entender, (a) es más fácil dispararse en el pie con parámetros sin sentido, y (b) no puede hacer el algoritmo de R # 2. (Aquí está la página Quantile de Mathworld , que afirma que Mathematica no puede hacer el n. ° 2, pero ofrece una generalización más simple de todos los otros algoritmos en términos de cuatro parámetros).

Me he sentido desconcertado por la función cuantil R todo el día.

Tengo una noción intuitiva de cómo funcionan los cuantiles, y una MS en estadísticas, pero vaya, vaya, la documentación es confusa para mí.

De los documentos:

Q [i] (p) = (1 - gamma) x [j] + gamma x [j + 1],

Estoy con eso hasta ahora. Para un cuantil de tipo i , es una interpolación entre x [j] y x [j + 1], basada en alguna misteriosa constante gamma

donde 1 <= i <= 9, (jm) / n <= p <(j-m + 1) / n, x [j] es la estadística de orden j, n es el tamaño de la muestra, y m es una constante determinada por el tipo de cuantil de muestra. Aquí gamma depende de la parte fraccional de g = np + mj.

Entonces, ¿cómo calcular j? ¿metro?

Para los tipos de cuantiles de muestra continua (4 a 9), los cuantiles de muestra se pueden obtener por interpolación lineal entre la estadística de orden k y p (k):

p (k) = (k - alfa) / (n - alfa - beta + 1), donde α y β son constantes determinadas por el tipo. Además, m = alfa + p (1 - alfa - beta) y gamma = g.

Ahora estoy realmente perdido. p, que era una constante antes, ahora es aparentemente una función.

Entonces, para los cuantiles tipo 7, el valor predeterminado ...

Tipo 7

p (k) = (k - 1) / (n - 1). En este caso, p (k) = modo [F (x [k])]. Esto es utilizado por S.

Alguien quiere ayudarme? En particular, estoy confundido por la notación de que p es una función y una constante, qué diablos es m , y ahora para calcular j para algún p particular.

Espero que en base a las respuestas aquí, podamos enviar alguna documentación revisada que explique mejor lo que está sucediendo aquí.

código o tipo de fuente quantile.R: quantile.default


Hay varias maneras de calcular cuantiles cuando le das un vector y no tienes un CDF conocido.

Considere la pregunta de qué hacer cuando sus observaciones no recaen exactamente en los cuantiles.

Los "tipos" simplemente determinan cómo hacer eso. Entonces, los métodos dicen, "use una interpolación lineal entre el estadístico de orden k-ésimo yp (k)".

Entonces, ¿qué es p (k)? Un hombre dice: "bueno, me gusta usar k / n". Otro chico dice: "Me gusta usar (k-1) / (n-1)", etc. Cada uno de estos métodos tiene diferentes propiedades que son más adecuadas para un problema u otro.

Los / alpha y / beta son solo formas de parametrizar las funciones p. En un caso, son 1 y 1. En otro caso, son 3/8 y -1/4. No creo que las p sean alguna vez una constante en la documentación. Simplemente no siempre muestran la dependencia explícitamente.

Vea lo que ocurre con los diferentes tipos cuando inserta vectores como 1: 5 y 1: 6.

(También tenga en cuenta que incluso si sus observaciones caen exactamente sobre los cuantiles, ciertos tipos seguirán usando interpolación lineal).