titles studio plots mtext change r apache-spark sparkr

studio - text in r



InstalaciĆ³n de SparkR (4)

Tengo la última versión de R - 3.2.1. Ahora quiero instalar SparkR en R. Después de ejecutar:

> install.packages("SparkR")

Regresé:

Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2’ (as ‘lib’ is unspecified) Warning in install.packages : package ‘SparkR’ is not available (for R version 3.2.1)

También instalé Spark en mi máquina

Spark 1.4.0

¿Cómo puedo resolver este problema?


Ahora las versiones 2.1.2 y 2.3.0 de SparkR ahora están disponibles en el repositorio de CRAN , puede instalar la versión 2.3.0 de la siguiente manera:

install.packages("https://cran.r-project.org/src/contrib/Archive/SparkR/SparkR_2.3.0.tar.gz", repos = NULL, type="source")

Nota: Primero debe descargar e instalar la versión correspondiente de Apache Spark desde la descarga , para que el paquete funcione correctamente.


Puede instalar directamente desde un repositorio de GitHub:

if (!require(''devtools'')) install.packages(''devtools'') devtools::install_github(''apache/[email protected]'', subdir=''R/pkg'')

Debe elegir la etiqueta ( v2.xx arriba) correspondiente a la versión de Spark que usa. Puede encontrar una lista completa de etiquetas en la página del proyecto o directamente desde R usando la API de GitHub :

jsonlite::fromJSON("https://api.github.com/repos/apache/spark/tags")$name

Si ha descargado un paquete binario de una página de descargas, la biblioteca R está en un subdirectorio R/lib/SparkR . Se puede usar para instalar SparkR directamente. Por ejemplo:

$ export SPARK_HOME=/path/to/spark/directory $ cd $SPARK_HOME/R/pkg/ $ R -e "devtools::install(''.'')"

También puede agregar R lib a .libPaths (tomado de here ):

Sys.setenv(SPARK_HOME=''/path/to/spark/directory'') .libPaths(c(file.path(Sys.getenv(''SPARK_HOME''), ''R'', ''lib''), .libPaths()))

Finalmente, puede usar sparkR shell sin ningún paso adicional:

$ /path/to/spark/directory/bin/sparkR

Editar

De acuerdo con Spark 2.1.0, las Notas de versión deberían estar disponibles en CRAN en el futuro:

Paquete instalable independiente creado con la versión Apache Spark. Enviaremos esto a CRAN pronto.

Puede seguir SPARK-15799 para verificar el progreso.

Editar 2

Si bien SPARK-15799 se fusionó, satisfacer los requisitos de CRAN resultó ser un desafío (ver, por ejemplo, discusiones sobre 2.2.2 , 2.3.1 , 2.4.0 ), y los paquetes se eliminaron posteriormente (ver, por ejemplo, SparkR se eliminó de CRAN el 2018-05-01 , ¿se eliminó el paquete CRAN SparkR? ). Como resultado, los métodos enumerados en la publicación original siguen siendo las soluciones más confiables.

Editar 3

OK, SparkR está nuevamente en CRAN, v2.4.1. install.packages(''SparkR'') debería funcionar nuevamente (los espejos pueden tardar un par de días en reflejar esto)


SparkR requiere no solo un paquete R, sino también un back-end Spark completo. Cuando desee actualizar SparkR, está actualizando Spark, no solo el paquete R. Si desea utilizar SparkR, esta publicación puede ayudarlo: https://blog.rstudio.org/2015/07/14/spark-1-4-for-rstudio/ .

Sin embargo, debe decirse: hoy en día es posible que desee consultar el paquete sparklyr, ya que hace que todo esto sea mucho más fácil.

install.packages("devtools") devtools::install_github("rstudio/sparklyr") library(sparklyr) spark_install(version = "1.6.2") spark_install(version = "2.0.0")

También ofrece más funcionalidad que SparkR, así como una interfaz muy agradable para dplyr .


También enfrenté un problema similar al intentar jugar con SparkR en EMR con Spark 2.0.0. Publicaré los pasos aquí que seguí para instalar el servidor rstudio, SparkR, sparklyr, y finalmente conectarme a una sesión de spark en un clúster EMR:

  1. Instale el servidor rstudio: después de que el clúster EMR esté en funcionamiento, ssh al nodo maestro con el usuario ''hadoop @'' y descargue el servidor rstudio

wget https://download2.rstudio.org/rstudio-server-rhel-0.99.903-x86_64.rpm

luego instale usando yum install

sudo yum install --nogpgcheck rstudio-server-rhel-0.99.903-x86_64.rpm

finalmente agregue un usuario para acceder a la consola web de rstudio como:

sudo su

sudo useradd nombre de usuario

sudo echo nombre de usuario: contraseña | chpasswd

  1. Para acceder a la consola web de rstudio, debe crear un túnel SSH desde su máquina al nodo maestro EMR como se muestra a continuación:

ssh -NL 8787: ec2-emr-master-node-ip.compute-1.amazonaws.com: 8787 [email protected]&

  1. Ahora abra cualquier navegador y escriba localhost:8787 para ir a la consola web de rstudio y use el username:password combinación de username:password para iniciar sesión.

  2. Para instalar los paquetes R necesarios, primero debe instalar libcurl en el nodo maestro, como se muestra a continuación:

actualización de sudo yum

sudo yum -y instalar libcurl-devel

  1. Resolver problemas de permisos con:

sudo -u hdfs hadoop fs -mkdir / user /

sudo -u hdfs hadoop fs -chown / user /

  1. Verifique la versión de Spark en EMR y configure SPARK_HOME :

spark-submit --version

export SPARK_HOME = ''/ usr / lib / spark /''

  1. Ahora en la consola SparkR instale SparkR como se SparkR a continuación:

install.packages (''devtools'')

devtools :: install_github (''apache/[email protected] '', subdir ='' R / pkg '')

install.packages (''sparklyr'')

biblioteca (SparkR)

biblioteca (sparklyr)

Sys.setenv (SPARK_HOME = ''/ usr / lib / spark'')

sc <- spark_connect (master = "cliente-hilo")