Big Data Analytics: introducción a R

Esta sección está dedicada a presentar a los usuarios el lenguaje de programación R. R se puede descargar del sitio web de cran . Para los usuarios de Windows, es útil instalar rtools y el rstudio IDE .

El concepto general detrás R es servir como interfaz para otro software desarrollado en lenguajes compilados como C, C ++ y Fortran y brindar al usuario una herramienta interactiva para analizar datos.

Navega a la carpeta del archivo zip del libro bda/part2/R_introduction y abre el R_introduction.Rprojarchivo. Esto abrirá una sesión de RStudio. Luego abra el archivo 01_vectors.R. Ejecute el script línea por línea y siga los comentarios en el código. Otra opción útil para aprender es simplemente escribir el código, esto te ayudará a acostumbrarte a la sintaxis R. En R, los comentarios se escriben con el símbolo #.

Para mostrar los resultados de ejecutar código R en el libro, después de evaluar el código, se comentan los resultados que R devuelve. De esta manera, puede copiar y pegar el código en el libro y probar directamente secciones del mismo en R.

# Create a vector of numbers 
numbers = c(1, 2, 3, 4, 5) 
print(numbers) 

# [1] 1 2 3 4 5  
# Create a vector of letters 
ltrs = c('a', 'b', 'c', 'd', 'e') 
# [1] "a" "b" "c" "d" "e"  

# Concatenate both  
mixed_vec = c(numbers, ltrs) 
print(mixed_vec) 
# [1] "1" "2" "3" "4" "5" "a" "b" "c" "d" "e"

Analicemos lo que sucedió en el código anterior. Vemos que es posible crear vectores con números y con letras. No necesitábamos decirle a R qué tipo de tipo de datos queríamos de antemano. Finalmente, pudimos crear un vector con números y letras. El vector mixed_vec ha coaccionado los números al carácter, podemos ver esto visualizando cómo se imprimen los valores entre comillas.

El siguiente código muestra el tipo de datos de diferentes vectores devueltos por la clase de función. Es común usar la función de clase para "interrogar" a un objeto, preguntándole cuál es su clase.

### Evaluate the data types using class

### One dimensional objects 
# Integer vector 
num = 1:10 
class(num) 
# [1] "integer"  

# Numeric vector, it has a float, 10.5 
num = c(1:10, 10.5) 
class(num) 
# [1] "numeric"  

# Character vector 
ltrs = letters[1:10] 
class(ltrs) 
# [1] "character"  

# Factor vector 
fac = as.factor(ltrs) 
class(fac) 
# [1] "factor"

R también admite objetos bidimensionales. En el siguiente código, hay ejemplos de las dos estructuras de datos más populares utilizadas en R: la matriz y el marco de datos.

# Matrix
M = matrix(1:12, ncol = 4) 
#      [,1] [,2] [,3] [,4] 
# [1,]    1    4    7   10 
# [2,]    2    5    8   11 
# [3,]    3    6    9   12 
lM = matrix(letters[1:12], ncol = 4) 
#     [,1] [,2] [,3] [,4] 
# [1,] "a"  "d"  "g"  "j"  
# [2,] "b"  "e"  "h"  "k"  
# [3,] "c"  "f"  "i"  "l"   

# Coerces the numbers to character 
# cbind concatenates two matrices (or vectors) in one matrix 
cbind(M, lM) 
#     [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] 
# [1,] "1"  "4"  "7"  "10" "a"  "d"  "g"  "j"  
# [2,] "2"  "5"  "8"  "11" "b"  "e"  "h"  "k"  
# [3,] "3"  "6"  "9"  "12" "c"  "f"  "i"  "l"   

class(M) 
# [1] "matrix" 
class(lM) 
# [1] "matrix"  

# data.frame 
# One of the main objects of R, handles different data types in the same object.  
# It is possible to have numeric, character and factor vectors in the same data.frame  

df = data.frame(n = 1:5, l = letters[1:5]) 
df 
#   n l 
# 1 1 a 
# 2 2 b 
# 3 3 c 
# 4 4 d 
# 5 5 e

Como se demostró en el ejemplo anterior, es posible utilizar diferentes tipos de datos en el mismo objeto. En general, así es como se presentan los datos en las bases de datos, parte de las API de los datos son texto o vectores de caracteres y otros numéricos. Es el trabajo del analista determinar qué tipo de datos estadísticos asignar y luego usar el tipo de datos R correcto para ello. En estadística, normalmente consideramos que las variables son de los siguientes tipos:

  • Numeric
  • Nominal o categórico
  • Ordinal

En R, un vector puede ser de las siguientes clases:

  • Numérico - Entero
  • Factor
  • Factor ordenado

R proporciona un tipo de datos para cada tipo estadístico de variable. Sin embargo, el factor ordenado se usa raramente, pero puede ser creado por el factor de función u ordenado.

La siguiente sección trata el concepto de indexación. Esta es una operación bastante común y se ocupa del problema de seleccionar secciones de un objeto y realizar transformaciones en ellas.

# Let's create a data.frame
df = data.frame(numbers = 1:26, letters) 
head(df) 
#      numbers  letters 
# 1       1       a 
# 2       2       b 
# 3       3       c 
# 4       4       d 
# 5       5       e 
# 6       6       f 

# str gives the structure of a data.frame, it’s a good summary to inspect an object 
str(df) 
#   'data.frame': 26 obs. of  2 variables: 
#   $ numbers: int  1 2 3 4 5 6 7 8 9 10 ... 
#   $ letters: Factor w/ 26 levels "a","b","c","d",..: 1 2 3 4 5 6 7 8 9 10 ...  

# The latter shows the letters character vector was coerced as a factor. 
# This can be explained by the stringsAsFactors = TRUE argumnet in data.frame 
# read ?data.frame for more information  

class(df) 
# [1] "data.frame"  

### Indexing
# Get the first row 
df[1, ] 
#     numbers  letters 
# 1       1       a  

# Used for programming normally - returns the output as a list 
df[1, , drop = TRUE] 
# $numbers 
# [1] 1 
#  
# $letters 
# [1] a 
# Levels: a b c d e f g h i j k l m n o p q r s t u v w x y z  

# Get several rows of the data.frame 
df[5:7, ] 
#      numbers  letters 
# 5       5       e 
# 6       6       f 
# 7       7       g  

### Add one column that mixes the numeric column with the factor column 
df$mixed = paste(df$numbers, df$letters, sep = ’’)  

str(df) 
# 'data.frame': 26 obs. of  3 variables: 
# $ numbers: int  1 2 3 4 5 6 7 8 9 10 ...
# $ letters: Factor w/ 26 levels "a","b","c","d",..: 1 2 3 4 5 6 7 8 9 10 ... 
# $ mixed  : chr  "1a" "2b" "3c" "4d" ...  

### Get columns 
# Get the first column 
df[, 1]  
# It returns a one dimensional vector with that column  

# Get two columns 
df2 = df[, 1:2] 
head(df2)  

#      numbers  letters 
# 1       1       a 
# 2       2       b 
# 3       3       c 
# 4       4       d 
# 5       5       e 
# 6       6       f  

# Get the first and third columns 
df3 = df[, c(1, 3)] 
df3[1:3, ]  

#      numbers  mixed 
# 1       1     1a
# 2       2     2b 
# 3       3     3c  

### Index columns from their names 
names(df) 
# [1] "numbers" "letters" "mixed"   
# This is the best practice in programming, as many times indeces change, but 
variable names don’t 
# We create a variable with the names we want to subset 
keep_vars = c("numbers", "mixed") 
df4 = df[, keep_vars]  

head(df4) 
#      numbers  mixed 
# 1       1     1a 
# 2       2     2b 
# 3       3     3c 
# 4       4     4d 
# 5       5     5e 
# 6       6     6f  

### subset rows and columns 
# Keep the first five rows 
df5 = df[1:5, keep_vars] 
df5 

#      numbers  mixed 
# 1       1     1a 
# 2       2     2b
# 3       3     3c 
# 4       4     4d 
# 5       5     5e  

# subset rows using a logical condition 
df6 = df[df$numbers < 10, keep_vars] 
df6 

#      numbers  mixed 
# 1       1     1a 
# 2       2     2b 
# 3       3     3c 
# 4       4     4d 
# 5       5     5e 
# 6       6     6f 
# 7       7     7g 
# 8       8     8h 
# 9       9     9i