spark org examples example ejemplo hive apache-spark hiveql apache-spark-sql parquet

org - Spark: Hive Query



spark sql example (1)

Debe enumerar explícitamente las columnas en la lista de origen y de destino: en este caso, seleccionar * no será suficiente.

insert overwrite table logs_parquet PARTITION(create_date) (col2, col3..) select col2,col3, .. col1 from logs

Sí, es más trabajo escribir la consulta, pero las consultas de partición requieren la asignación explícita de las columnas con las columnas de partición al final .

Tengo un archivo de registro y la primera columna sería mi partición en la tabla Hive.

logSchemaRDD.registerTempTable("logs") hiveContext.sql("insert overwrite table logs_parquet PARTITION(create_date=select ? from logs) select * from logs")

¿Cómo construyo la consulta para seleccionar la primera columna (marcada como? Aquí) y me aseguro de que la que seleccioné en la partición coincida con la 2ª selección (*)?