studio r windows apache-spark rstudio sparkr

group by rstudio



No se puede iniciar SparkR en RStudio (7)

Después de un largo y difícil proceso de instalación de SparkR me estoy metiendo en nuevos problemas de lanzamiento de SparkR.

Mi configuración

R 3.2.0 RStudio 0.98.1103 Rtools 3.3 Spark 1.4.0 Java Version 8 SparkR 1.4.0 Windows 7 SP 1 64 Bit

Ahora trato de usar el siguiente código en R:

library(devtools) library(SparkR) Sys.setenv(SPARK_MEM="1g") Sys.setenv(SPARK_HOME="C:/spark-1.4.0") sc <- sparkR.init(master="local")

Recibo lo siguiente:

JVM is not ready after 10 seconds

También estaba tratando de agregar algunas variables del sistema como spark path o java path.

¿Tienes algún consejo para mí para solucionar esos problemas?

El siguiente paso para mí después de probar el host local sería comenzar las pruebas en mi clúster hadoop en ejecución.


Tuve el mismo problema y mi archivo spark-submit.cmd tampoco se estaba ejecutando desde la línea de comandos. Los siguientes pasos me funcionaron

Vaya a las variables de su entorno y en las variables del sistema seleccione el nombre de la variable RUTA. Junto con otros valores, agregue c:/Windows/System32/ separados por punto y coma. Esto hizo que mi spark-submit.cmd se ejecutara desde la línea de comandos y, finalmente, desde el Rstudio.

Me di cuenta de que obtenemos el problema anterior solo si no se especifican todos los valores de ruta requeridos. Asegúrese de que todos los valores de ruta (R, Rtools) estén especificados en las variables de entorno. Por ejemplo, mi ruta Rtools era c:/Rtools/bin;c:/Rtools/gcc-4.6.3/bin

Espero que esto ayude.


Eso no funcionó para mí. Si alguien tiene el mismo problema, intente otorgar permisos de ejecución a c: /sparkpath/bin/spark-submit.cmd.


Tenía exactamente el mismo problema. Puedo iniciar SparkR en línea de comandos, pero no en RStudio en Windows. Y aquí está la solución que funciona para mí.

  1. borre todos los caminos que estableció cuando trató de solucionar este problema. Esto incluye las rutas que establece en el entorno de Windows desde el panel de control de la ventana y usa Sys.unsetenv () para desactivar SPARK_HOME.

  2. encuentre su directorio de trabajo predeterminado de RStudio usando getwd () en RStudio. Y luego crea un archivo .Rprofile en este directorio. Coloque la siguiente línea en este archivo: .libPaths ("C: /Apache/Spark-1.5.1/R/lib")

  3. En el panel de control de la ventana-> Sistema-> Configuración avanzada del sistema-> Variables del entorno, agregue este "; C: / Apache / Spark-1.5.1 / bin" al final de la variable PATH existente.

  4. Inicie RStudio, si escribe .libPaths (), puede ver que la ruta de la biblioteca SparkR ya está en la ruta de la biblioteca

  5. use la biblioteca (SparkR) para cargar la biblioteca SparkR

  6. sc = sparkR.init (maestro = "local")

Intenté esto con Spark 1.4.1 y 1.5.1, ambos funcionan bien. Espero que esto pueda ayudar a quien todavía tenga problemas después de todas las sugerencias anteriores.


Tuve un problema similar. En mi caso, el problema fue con el guión (''-'').
cambiando el código:

sc <- sparkR.init(master = "local[*]",sparkPackages = c("com.databricks:spark-csv_2.11-1.4.0"))

a:

sc <- sparkR.init(master = "local[*]",sparkPackages = c("com.databricks:spark-csv_2.11:1.4.0"))

trabajó para mi. ¿Notaste el cambio?

PD: copie el jar en su carpeta SPARK_HOME / lib

Editar 1: Además, verifique que haya configurado su "HADOOP_HOME"


Espero que esto ayude.


La siguiente solución funcionará para Mac OS.

Después de instalar Hadoop seguido de Spark.

spark_path <- strsplit(system("brew info apache-spark",intern=T)[4],'' '')[[1]][1] # Get your spark path .libPaths(c(file.path(spark_path,"libexec", "R", "lib"), .libPaths())) library(SparkR


También tuve este error, por una causa diferente. Debajo del capó, Spark llama

system2(sparkSubmitBin, combinedArgs, wait = F)

Hay muchas formas en que esto puede salir mal. En mi caso, el error subyacente (invisible hasta llamar al system2 directamente como un experimento) era "No se admite la ruta UNC". Tuve que cambiar mi directorio de trabajo en R studio a un directorio que no era parte de una red compartida, y luego comenzó a funcionar.


Creo que fue un error que ahora se resolvió. Pruebe lo siguiente,

Sys.setenv(SPARK_HOME="C://spark-1.4.0") .libPaths(c(file.path(Sys.getenv("SPARK_HOME"), "R", "lib"), .libPaths())) library("SparkR", lib.loc="C://spark-1.4.0//lib") # The use of // is for windows environment. library(SparkR) sc=sparkR.init(master="local")

Lanzamiento de Java con el comando spark-submit C:/spark-1.4.0/bin/spark-submit.cmd sparkr-shell

C:/Users/Ashish/AppData/Local/Temp/RtmpWqFsOB/backend_portbdc329477c6

Espero que esto ayude.