spark for example designed built aggregations apache-spark dataframe rdd

apache-spark - example for a spark sql built-in aggregations function designed for dataframe



Spark: resta dos DataFrames (2)

De acuerdo con los documentos de la API , hacer:

dataFrame1.except(dataFrame2)

devolverá un nuevo DataFrame que contenga filas en dataFrame1 pero no en dataframe2.

En Spark versión 1.2.0 uno podría usar subtract con 2 SchemRDD para terminar con solo el contenido diferente del primero

val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)

onlyNewData contiene las filas en todaySchemRDD que no existen en yesterdaySchemaRDD .

¿Cómo se puede lograr esto con DataFrames en Spark versión 1.3.0 ?


En pyspark DOCS sería restar

df1.subtract(df2)