tabla - funcion subset en r

Aplicando una función a cada fila de una tabla de datos. (7)

Estoy buscando una manera de aplicar eficientemente una función a cada fila de data.table. Consideremos la siguiente tabla de datos:

library(data.table) library(stringr) x <- data.table(a = c(1:3, 1), b = c(''12 13'', ''14 15'', ''16 17'', ''18 19'')) > x a b 1: 1 12 13 2: 2 14 15 3: 3 16 17 4: 1 18 19

Digamos que quiero dividir cada elemento de la columna b por el espacio (lo que da como resultado dos filas para cada fila en los datos originales) y unir las tablas de datos resultantes. Para el ejemplo anterior, necesito el siguiente resultado:

a V1 1: 1 12 2: 1 13 3: 2 14 4: 2 15 5: 3 16 6: 3 17 7: 1 18 8: 1 19

Lo siguiente funcionaría si la columna a solo tiene valores únicos :

x[, list(str_split(b, '' '')[[1]]), by = a]

Lo siguiente casi funciona (a menos que haya algunas filas idénticas en la tabla de datos original), pero es feo cuando x tiene muchas columnas y copia la columna b al resultado, lo que me gustaría evitar.

> x[, list(str_split(b, '' '')[[1]]), by = list(a,b)] a b V1 1: 1 12 13 12 2: 1 12 13 13 3: 2 14 15 14 4: 2 14 15 15 5: 3 16 17 16 6: 3 16 17 17 7: 1 18 19 18 8: 1 18 19 19

¿Cuál sería la forma más eficiente e idiomática de resolver este problema?

El enfoque dplyr / tidyr también funciona con tablas de datos.

library(dplyr) library(tidyr) x %>% separate(b, into = c("b1", "b2")) %>% gather(b, "V1", b1:b2) %>% arrange(V1) %>% select(a, V1)

O bien, utilizando los formularios de evaluación estándar:

x %>% separate_("b", into = c("b1", "b2")) %>% gather_("b", "V1", c("b1", "b2")) %>% arrange_(~ V1) %>% select_(~ a, ~ V1)

El caso de diferentes números de valores en la columna b es solo un poco más complicado.

library(stringr) x2 <- data.table( a = c(1:3, 1), b = c(''12 13'', ''14'', ''15 16 17'', ''18 19'') ) n <- max(str_count(x2$b, " ")) + 1 b_cols <- paste0("b", seq_len(n)) x2 %>% separate_("b", into = b_cols, extra = "drop") %>% gather_("b", "V1", b_cols) %>% arrange_(~ V1) %>% select_(~ a, ~ V1)

El enfoque más efectivo e idiomático es tener una función vectorizada.

En este caso, algún tipo de regex hará lo que quieras

x[, V1 := gsub(" [[:alnum:]]*", "", b)] a b V1 1: 1 12 13 12 2: 2 14 15 14 3: 3 16 17 16 4: 1 18 19 18

Si desea devolver cada componente dividido y sabe que hay dos en cada uno, puede utilizar Map para forzar el resultado de strsplit en la forma correcta

x[, c(''b1'',''b2'') := do.call(Map, c(f = c, strsplit(b, '' '')))] x a b b1 b2 1: 1 12 13 12 13 2: 2 14 15 14 15 3: 3 16 17 16 17 4: 1 18 19 18 19

Mirando la entrada y la salida deseada, esto debería funcionar -

x <- data.frame(a=c(1,2,3,1),b=c("12 13","14 15","16 17","18 19")) data.frame(a=rep(x$a,each=2), new_b=unlist(strsplit(as.character(x$b)," ")))

Qué tal si :

x a b 1: 1 12 13 2: 2 14 15 3: 3 16 17 4: 1 18 19 x[,list(a=rep(a,each=2), V1=unlist(strsplit(b," ")))] a V1 1: 1 12 2: 1 13 3: 2 14 4: 2 15 5: 3 16 6: 3 17 7: 1 18 8: 1 19

Solución generalizada dado comentario:

x[,{s=strsplit(b," ");list(a=rep(a,sapply(s,length)), V1=unlist(s))}]

Una opción sería agregar un número de fila

x[, r := 1:nrow(x)]

y luego agrupar por r :

x[, list(a, str_split(b, '' '')[[1]]), by = r]

Me pregunto si hay mejores soluciones?

x[, .(a,strsplit(b,'' '')), by = .I]

parece más estético

x[, .(a,strsplit(b,'' '')), by=1:nrow(x)]

by=nrow(x) es una forma sencilla de forzar 1 fila por grupo