python - Eliminar filas duplicadas del marco de datos de Pandas donde solo algunas columnas tienen el mismo valor
dataframe duplicates (1)
Use
drop_duplicates
con el
subset
parámetros, para mantener solo las últimas filas duplicadas, agregue
keep=''last''
:
df1 = df.drop_duplicates(subset=[''A'',''B''])
#same as
#df1 = df.drop_duplicates(subset=[''A'',''B''], keep=''first'')
print (df1)
A B C
0 1 2 x
2 3 4 z
3 3 5 x
df2 = df.drop_duplicates(subset=[''A'',''B''], keep=''last'')
print (df2)
A B C
1 1 2 y
2 3 4 z
3 3 5 x
Tengo un marco de datos de pandas de la siguiente manera:
A B C
1 2 x
1 2 y
3 4 z
3 5 x
Quiero que solo quede 1 fila de filas que compartan los mismos valores en columnas específicas. En el ejemplo anterior me refiero a las columnas A y B. En otras palabras, si los valores de las columnas A y B aparecen más de una vez en el marco de datos, solo debe quedar una fila (lo que no importa).
FWIW: el número máximo de las llamadas filas duplicadas (es decir, donde las columnas A y B son iguales) es 2.
El resultado debería verse así:
A B C
1 2 x
3 4 z
3 5 x
o
A B C
1 2 y
3 4 z
3 5 x