tutorial true sparksession spark read dependency apache-spark dataframe spark-csv output-formatting

apache spark - true - ¿Cómo mostrar el contenido de la columna completa en un Spark Dataframe?



spark sql tutorial (10)

Estoy usando spark-csv para cargar datos en un DataFrame. Quiero hacer una consulta simple y mostrar el contenido:

val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv") df.registerTempTable("tasks") results = sqlContext.sql("select col from tasks"); results.show()

La columna parece truncada:

scala> results.show(); +--------------------+ | col| +--------------------+ |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:15:...| |2015-11-06 07:15:...| |2015-11-16 07:15:...| |2015-11-16 07:21:...| |2015-11-16 07:21:...| |2015-11-16 07:21:...| +--------------------+

¿Cómo muestro el contenido completo de la columna?


Dentro de Databricks puede visualizar el marco de datos en formato tabular. Con el comando:

display(results)

Se verá como


El siguiente código ayudaría a ver todas las filas sin truncamiento en cada columna

df.show(df.count(), False)


Las otras soluciones son buenas. Si estos son tus objetivos:

  1. Sin truncamiento de columnas,
  2. Sin pérdida de filas,
  3. Rápido y
  4. Eficiente

Estas dos líneas son útiles ...

df.persist df.show(df.count, false) // in Scala or ''False'' in Python

Al persistir, las 2 acciones del ejecutor, contar y mostrar, son más rápidas y más eficientes cuando se utiliza persist o cache para mantener la estructura de trama de datos subyacente provisional dentro de los ejecutores. Ver más sobre persistir y caché .


Si coloca results.show(false) , los resultados no se truncarán



prueba este comando:

df.show(df.count())


results.show(20, False) o results.show(20, false) dependiendo de si lo está ejecutando en Java / Scala / Python


results.show(20, false) no se truncará. Comprueba la source


results.show(20,false) sirvió en Scala.


results.show(false) le mostrará el contenido completo de la columna.

Muestre el método por defecto límite a 20, y agregar un número antes de false mostrará más filas.