spark python hadoop graph-theory apache-spark

spark shell python



¿Cómo ejecuto Graphx con Python/pyspark? (3)

Debería mirar GraphFrames ( https://github.com/graphframes/graphframes ), que ajusta los algoritmos GraphX ​​bajo la API de DataFrames y proporciona la interfaz de Python.

Aquí hay un ejemplo rápido de http://graphframes.github.io/quick-start.html , con una ligera modificación para que funcione

primero comience pyspark con el paquete graphframes cargado

pyspark --packages graphframes:graphframes:0.1.0-spark1.6

código python:

from graphframes import * # Create a Vertex DataFrame with unique ID column "id" v = sqlContext.createDataFrame([ ("a", "Alice", 34), ("b", "Bob", 36), ("c", "Charlie", 30), ], ["id", "name", "age"]) # Create an Edge DataFrame with "src" and "dst" columns e = sqlContext.createDataFrame([ ("a", "b", "friend"), ("b", "c", "follow"), ("c", "b", "follow"), ], ["src", "dst", "relationship"]) # Create a GraphFrame g = GraphFrame(v, e) # Query: Get in-degree of each vertex. g.inDegrees.show() # Query: Count the number of "follow" connections in the graph. g.edges.filter("relationship = ''follow''").count() # Run PageRank algorithm, and show results. results = g.pageRank(resetProbability=0.01, maxIter=20) results.vertices.select("id", "pagerank").show()

Estoy intentando ejecutar Spark graphx con Python usando pyspark. Mi instalación parece correcta, ya que puedo ejecutar los tutoriales de pyspark y los tutoriales GraphX ​​(Java) sin problemas. Presumiblemente, dado que GraphX ​​es parte de Spark, pyspark debería poder interconectarlo, ¿correcto?

Aquí están los tutoriales para pyspark: http://spark.apache.org/docs/0.9.0/quick-start.html http://spark.apache.org/docs/0.9.0/python-programming-guide.html

Aquí están los de GraphX: http://spark.apache.org/docs/0.9.0/graphx-programming-guide.html http://ampcamp.berkeley.edu/big-data-mini-course/graph-analytics-with-graphx.html

¿Alguien puede convertir el tutorial de GraphX ​​para estar en Python?


GraphX ​​0.9.0 aún no tiene la API de Python. Se espera en próximos lanzamientos.