apache spark - true - ¿Cómo mostrar el contenido de la columna completa en un Spark Dataframe?
spark sql tutorial (10)
Estoy usando spark-csv para cargar datos en un DataFrame. Quiero hacer una consulta simple y mostrar el contenido:
val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv")
df.registerTempTable("tasks")
results = sqlContext.sql("select col from tasks");
results.show()
La columna parece truncada:
scala> results.show();
+--------------------+
| col|
+--------------------+
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:15:...|
|2015-11-06 07:15:...|
|2015-11-16 07:15:...|
|2015-11-16 07:21:...|
|2015-11-16 07:21:...|
|2015-11-16 07:21:...|
+--------------------+
¿Cómo muestro el contenido completo de la columna?
Dentro de Databricks puede visualizar el marco de datos en formato tabular. Con el comando:
display(results)
Se verá como
El siguiente código ayudaría a ver todas las filas sin truncamiento en cada columna
df.show(df.count(), False)
Las otras soluciones son buenas. Si estos son tus objetivos:
- Sin truncamiento de columnas,
- Sin pérdida de filas,
- Rápido y
- Eficiente
Estas dos líneas son útiles ...
df.persist
df.show(df.count, false) // in Scala or ''False'' in Python
Al persistir, las 2 acciones del ejecutor, contar y mostrar, son más rápidas y más eficientes cuando se utiliza
persist
o
cache
para mantener la estructura de trama de datos subyacente provisional dentro de los ejecutores.
Ver más sobre
persistir y caché
.
Si coloca
results.show(false)
, los resultados no se truncarán
Yo uso el complemento La extensión de Chrome funciona bastante bien:
[ https://userstyles.org/styles/157357/jupyter-notebook-wide][1]
prueba este comando:
df.show(df.count())
results.show(20, False)
o
results.show(20, false)
dependiendo de si lo está ejecutando en Java / Scala / Python
results.show(20, false)
no se truncará.
Comprueba la
source
results.show(20,false)
sirvió en Scala.
results.show(false)
le mostrará el contenido completo de la columna.
Muestre el método por defecto límite a 20, y agregar un número antes de
false
mostrará más filas.