tabla - funcion subset en r
Aplicando una funciĆ³n a cada fila de una tabla de datos. (7)
Estoy buscando una manera de aplicar eficientemente una función a cada fila de data.table. Consideremos la siguiente tabla de datos:
library(data.table)
library(stringr)
x <- data.table(a = c(1:3, 1), b = c(''12 13'', ''14 15'', ''16 17'', ''18 19''))
> x
a b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19
Digamos que quiero dividir cada elemento de la columna b
por el espacio (lo que da como resultado dos filas para cada fila en los datos originales) y unir las tablas de datos resultantes. Para el ejemplo anterior, necesito el siguiente resultado:
a V1
1: 1 12
2: 1 13
3: 2 14
4: 2 15
5: 3 16
6: 3 17
7: 1 18
8: 1 19
Lo siguiente funcionaría si la columna a
solo tiene valores únicos :
x[, list(str_split(b, '' '')[[1]]), by = a]
Lo siguiente casi funciona (a menos que haya algunas filas idénticas en la tabla de datos original), pero es feo cuando x
tiene muchas columnas y copia la columna b al resultado, lo que me gustaría evitar.
> x[, list(str_split(b, '' '')[[1]]), by = list(a,b)]
a b V1
1: 1 12 13 12
2: 1 12 13 13
3: 2 14 15 14
4: 2 14 15 15
5: 3 16 17 16
6: 3 16 17 17
7: 1 18 19 18
8: 1 18 19 19
¿Cuál sería la forma más eficiente e idiomática de resolver este problema?
El enfoque dplyr
/ tidyr
también funciona con tablas de datos.
library(dplyr)
library(tidyr)
x %>%
separate(b, into = c("b1", "b2")) %>%
gather(b, "V1", b1:b2) %>%
arrange(V1) %>%
select(a, V1)
O bien, utilizando los formularios de evaluación estándar:
x %>%
separate_("b", into = c("b1", "b2")) %>%
gather_("b", "V1", c("b1", "b2")) %>%
arrange_(~ V1) %>%
select_(~ a, ~ V1)
El caso de diferentes números de valores en la columna b
es solo un poco más complicado.
library(stringr)
x2 <- data.table(
a = c(1:3, 1),
b = c(''12 13'', ''14'', ''15 16 17'', ''18 19'')
)
n <- max(str_count(x2$b, " ")) + 1
b_cols <- paste0("b", seq_len(n))
x2 %>%
separate_("b", into = b_cols, extra = "drop") %>%
gather_("b", "V1", b_cols) %>%
arrange_(~ V1) %>%
select_(~ a, ~ V1)
El enfoque más efectivo e idiomático es tener una función vectorizada.
En este caso, algún tipo de regex
hará lo que quieras
x[, V1 := gsub(" [[:alnum:]]*", "", b)]
a b V1
1: 1 12 13 12
2: 2 14 15 14
3: 3 16 17 16
4: 1 18 19 18
Si desea devolver cada componente dividido y sabe que hay dos en cada uno, puede utilizar Map
para forzar el resultado de strsplit
en la forma correcta
x[, c(''b1'',''b2'') := do.call(Map, c(f = c, strsplit(b, '' '')))]
x
a b b1 b2
1: 1 12 13 12 13
2: 2 14 15 14 15
3: 3 16 17 16 17
4: 1 18 19 18 19
Mirando la entrada y la salida deseada, esto debería funcionar -
x <- data.frame(a=c(1,2,3,1),b=c("12 13","14 15","16 17","18 19"))
data.frame(a=rep(x$a,each=2), new_b=unlist(strsplit(as.character(x$b)," ")))
Qué tal si :
x
a b
1: 1 12 13
2: 2 14 15
3: 3 16 17
4: 1 18 19
x[,list(a=rep(a,each=2), V1=unlist(strsplit(b," ")))]
a V1
1: 1 12
2: 1 13
3: 2 14
4: 2 15
5: 3 16
6: 3 17
7: 1 18
8: 1 19
Solución generalizada dado comentario:
x[,{s=strsplit(b," ");list(a=rep(a,sapply(s,length)), V1=unlist(s))}]
Una opción sería agregar un número de fila
x[, r := 1:nrow(x)]
y luego agrupar por r
:
x[, list(a, str_split(b, '' '')[[1]]), by = r]
Me pregunto si hay mejores soluciones?
x[, .(a,strsplit(b,'' '')), by = .I]
parece más estético
x[, .(a,strsplit(b,'' '')), by=1:nrow(x)]
by=nrow(x)
es una forma sencilla de forzar 1 fila por grupo