list - print - schema spark

pyspark collect_set o collect_list con groupby (1)

¿Cómo puedo usar collect_set o collect_list en un marco de datos después de groupby ? por ejemplo: df.groupby(''key'').collect_set(''values'') . Me sale un error: AttributeError: ''GroupedData'' object has no attribute ''collect_set''

Necesitas usar agg. Ejemplo:

Tenga en cuenta que en lo anterior debe crear un HiveContext. Consulte https://.com/a/35529093/690430 para ver las diferentes versiones de Spark.

(df .groupby("id") .agg(F.collect_set("code"), F.collect_list("name")) .show()) +---+-----------------+------------------+ | id|collect_set(code)|collect_list(name)| +---+-----------------+------------------+ | a| [code1, code2]| [name2]| +---+-----------------+------------------+