ggplot2 - Diagramas de dispersión y diagramas de fluctuación
Los gráficos de dispersión son similares a los gráficos de líneas que se utilizan generalmente para trazar. Los gráficos de dispersión muestran cuánto se relaciona una variable con otra. La relación entre variables se denomina correlación, que generalmente se usa en métodos estadísticos. Usaremos el mismo conjunto de datos llamado "Iris" que incluye mucha variación entre cada variable. Este es un famoso conjunto de datos que da medidas en centímetros de las variables longitud y ancho del sépalo con largo y ancho del pétalo para 50 flores de cada una de las 3 especies de iris. Las especies se llaman Iris setosa, versicolor y virginica.
Creación de un diagrama de dispersión básico
Los siguientes pasos están involucrados para crear diagramas de dispersión con el paquete "ggplot2":
Para crear un diagrama de dispersión básico se ejecuta el siguiente comando:
> # Basic Scatter Plot
> ggplot(iris, aes(Sepal.Length, Petal.Length)) +
+ geom_point()
Agregar atributos
Podemos cambiar la forma de los puntos con una propiedad llamada forma en la función geom_point ().
> # Change the shape of points
> ggplot(iris, aes(Sepal.Length, Petal.Length)) +
+ geom_point(shape=1)
Podemos agregar color a los puntos que se agrega en los diagramas de dispersión requeridos.
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1)
En este ejemplo, hemos creado colores según las especies que se mencionan en las leyendas. Las tres especies se distinguen de forma única en la parcela mencionada.
Ahora nos centraremos en establecer relación entre las variables.
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1) +
+ geom_smooth(method=lm)
geom_smooth La función ayuda al patrón de superposición y crea el patrón de variables requeridas.
El método de atributo "lm" menciona la línea de regresión que debe desarrollarse.
> # Add a regression line
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1) +
+ geom_smooth(method=lm)
También podemos agregar una línea de regresión sin región de confianza sombreada con la sintaxis mencionada a continuación:
># Add a regression line but no shaded confidence region
> ggplot(iris, aes(Sepal.Length, Petal.Length, colour=Species)) +
+ geom_point(shape=1) +
+ geom_smooth(method=lm, se=FALSE)
Las regiones sombreadas representan cosas distintas de las regiones de confianza.
Gráficos de jitter
Los gráficos de fluctuación incluyen efectos especiales con los que se pueden representar gráficos dispersos. Jitter no es más que un valor aleatorio que se asigna a los puntos para separarlos como se menciona a continuación:
> ggplot(mpg, aes(cyl, hwy)) +
+ geom_point() +
+ geom_jitter(aes(colour = class))