apache-spark - example for a spark sql built-in aggregations function designed for dataframe
Spark: resta dos DataFrames (2)
De acuerdo con los documentos de la API , hacer:
dataFrame1.except(dataFrame2)
devolverá un nuevo DataFrame que contenga filas en dataFrame1 pero no en dataframe2.
En Spark versión 1.2.0 uno podría usar subtract
con 2 SchemRDD
para terminar con solo el contenido diferente del primero
val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)
onlyNewData
contiene las filas en todaySchemRDD
que no existen en yesterdaySchemaRDD
.
¿Cómo se puede lograr esto con DataFrames
en Spark versión 1.3.0 ?
En pyspark DOCS sería restar
df1.subtract(df2)