sparksession spark mysql jdbc apache-spark pyspark

mysql - sparksession - spark sql



En Apache Spark 2.0.0, ¿es posible obtener una consulta de una base de datos externa(en lugar de tomar toda la tabla)? (1)

Usando pyspark:

from pyspark.sql import SparkSession spark = SparkSession/ .builder/ .appName("spark play")/ .getOrCreate() df = spark.read/ .format("jdbc")/ .option("url", "jdbc:mysql://localhost:port")/ .option("dbtable", "schema.tablename")/ .option("user", "username")/ .option("password", "password")/ .load()

En lugar de buscar "schema.tablename", preferiría obtener el conjunto de resultados de una consulta.


Igual que en 1.x puede pasar una subconsulta válida como argumento dbtable por ejemplo:

... .option("dbtable", "(SELECT foo, bar FROM schema.tablename) AS tmp") ...