valores studio repetidos quitar para identificar eliminar duplicados duplicadas datos contar con como columnas buscar r dataframe duplicate-removal

studio - formula para buscar datos repetidos en excel



duplicados en mĂșltiples columnas (2)

Tengo un marco de datos como ese

> df a b c d 1 1 2 A 1001 2 2 4 B 1002 3 3 6 B 1002 4 4 8 C 1003 5 5 10 D 1004 6 6 12 D 1004 7 7 13 E 1005 8 8 14 E 1006

Quiero eliminar las filas donde hay valores repetidos en la columna c AND columna d. Entonces, en este ejemplo, las filas 2,3,5 y 6 se eliminarían.

Lo he usado, que funciona:

df[!(df$c %in% df$c[duplicated(df$c)] & df$d %in% df$d[duplicated(df$d)]),] >df a b c d 1 1 2 A 1001 4 4 8 C 1003 7 7 13 E 1005 8 8 14 E 1006

pero parece torpe y no puedo evitar pensar que hay una mejor manera. ¿Alguna sugerencia?

En caso de que alguien quiera volver a crear el marco de datos aquí está el dput:

df = structure(list(a = c(1, 2, 3, 4, 5, 6, 7, 8), b = c(2, 4, 6, 8, 10, 12, 13, 14), c = structure(c(1L, 2L, 2L, 3L, 4L, 4L, 5L, 5L), .Label = c("A", "B", "C", "D", "E"), class = "factor"), d = c(1001, 1002, 1002, 1003, 1004, 1004, 1005, 1006)), .Names = c("a", "b", "c", "d"), row.names = c(NA, -8L), class = "data.frame")


Funciona si usa duplicated dos veces:

df[!(duplicated(df[c("c","d")]) | duplicated(df[c("c","d")], fromLast = TRUE)), ] a b c d 1 1 2 A 1001 4 4 8 C 1003 7 7 13 E 1005 8 8 14 E 1006


Haz un nuevo objeto con las 2 columnas:

df_dups <- df[c("c", "d")]

Ahora aplícalo a tu df principal:

df[!duplicated(df_dups),]

Se ve más ordenado y fácil de ver / cambiar las columnas que está utilizando.