Big Data Analytics: exploración de datos
Exploratory data analysises un concepto desarrollado por John Tuckey (1977) que consiste en una nueva perspectiva de la estadística. La idea de Tuckey era que en la estadística tradicional, los datos no se exploraban gráficamente, solo se usaban para probar hipótesis. El primer intento de desarrollar una herramienta se realizó en Stanford, el proyecto se llamó prim9 . La herramienta pudo visualizar datos en nueve dimensiones, por lo que pudo brindar una perspectiva multivariante de los datos.
En los últimos días, el análisis exploratorio de datos es imprescindible y se ha incluido en el ciclo de vida del análisis de big data. La capacidad de encontrar información y poder comunicarla de manera eficaz en una organización se ve impulsada por sólidas capacidades de EDA.
Basado en las ideas de Tuckey, Bell Labs desarrolló el S programming languagecon el fin de proporcionar una interfaz interactiva para realizar estadísticas. La idea de S era proporcionar amplias capacidades gráficas con un lenguaje fácil de usar. En el mundo actual, en el contexto de Big Data,R que se basa en el S El lenguaje de programación es el software de análisis más popular.
El siguiente programa demuestra el uso de análisis de datos exploratorios.
El siguiente es un ejemplo de análisis de datos exploratorio. Este código también está disponible enpart1/eda/exploratory_data_analysis.R archivo.
library(nycflights13)
library(ggplot2)
library(data.table)
library(reshape2)
# Using the code from the previous section
# This computes the mean arrival and departure delays by carrier.
DT <- as.data.table(flights)
mean2 = DT[, list(mean_departure_delay = mean(dep_delay, na.rm = TRUE),
mean_arrival_delay = mean(arr_delay, na.rm = TRUE)),
by = carrier]
# In order to plot data in R usign ggplot, it is normally needed to reshape the data
# We want to have the data in long format for plotting with ggplot
dt = melt(mean2, id.vars = ’carrier’)
# Take a look at the first rows
print(head(dt))
# Take a look at the help for ?geom_point and geom_line to find similar examples
# Here we take the carrier code as the x axis
# the value from the dt data.table goes in the y axis
# The variable column represents the color
p = ggplot(dt, aes(x = carrier, y = value, color = variable, group = variable)) +
geom_point() + # Plots points
geom_line() + # Plots lines
theme_bw() + # Uses a white background
labs(list(title = 'Mean arrival and departure delay by carrier',
x = 'Carrier', y = 'Mean delay'))
print(p)
# Save the plot to disk
ggsave('mean_delay_by_carrier.png', p,
width = 10.4, height = 5.07)
El código debería producir una imagen como la siguiente: