spark shell python
¿Cómo ejecuto Graphx con Python/pyspark? (3)
Debería mirar GraphFrames ( https://github.com/graphframes/graphframes ), que ajusta los algoritmos GraphX bajo la API de DataFrames y proporciona la interfaz de Python.
Aquí hay un ejemplo rápido de http://graphframes.github.io/quick-start.html , con una ligera modificación para que funcione
primero comience pyspark con el paquete graphframes cargado
pyspark --packages graphframes:graphframes:0.1.0-spark1.6
código python:
from graphframes import *
# Create a Vertex DataFrame with unique ID column "id"
v = sqlContext.createDataFrame([
("a", "Alice", 34),
("b", "Bob", 36),
("c", "Charlie", 30),
], ["id", "name", "age"])
# Create an Edge DataFrame with "src" and "dst" columns
e = sqlContext.createDataFrame([
("a", "b", "friend"),
("b", "c", "follow"),
("c", "b", "follow"),
], ["src", "dst", "relationship"])
# Create a GraphFrame
g = GraphFrame(v, e)
# Query: Get in-degree of each vertex.
g.inDegrees.show()
# Query: Count the number of "follow" connections in the graph.
g.edges.filter("relationship = ''follow''").count()
# Run PageRank algorithm, and show results.
results = g.pageRank(resetProbability=0.01, maxIter=20)
results.vertices.select("id", "pagerank").show()
Estoy intentando ejecutar Spark graphx con Python usando pyspark. Mi instalación parece correcta, ya que puedo ejecutar los tutoriales de pyspark y los tutoriales GraphX (Java) sin problemas. Presumiblemente, dado que GraphX es parte de Spark, pyspark debería poder interconectarlo, ¿correcto?
Aquí están los tutoriales para pyspark: http://spark.apache.org/docs/0.9.0/quick-start.html http://spark.apache.org/docs/0.9.0/python-programming-guide.html
Aquí están los de GraphX: http://spark.apache.org/docs/0.9.0/graphx-programming-guide.html http://ampcamp.berkeley.edu/big-data-mini-course/graph-analytics-with-graphx.html
¿Alguien puede convertir el tutorial de GraphX para estar en Python?
GraphX 0.9.0 aún no tiene la API de Python. Se espera en próximos lanzamientos.
Parece que los enlaces de python a GraphX se retrasan al menos para Spark 1.4 1.5 ∞. Está esperando detrás de la API de Java.
Puede rastrear el estado en SPARK-3789 GRAPHX Enlaces de Python para GraphX - ASF JIRA