Apache Spark - Guía rápida

A continuación se muestra una lista de transformaciones RDD.

S. No	Transformaciones y significado
1	map(func) Devuelve un nuevo conjunto de datos distribuido, formado al pasar cada elemento de la fuente a través de una función. func.
2	filter(func) Devuelve un nuevo conjunto de datos formado seleccionando aquellos elementos de la fuente en los que func devuelve verdadero.
3	flatMap(func) Similar al mapa, pero cada elemento de entrada se puede asignar a 0 o más elementos de salida (por lo que func debería devolver una secuencia en lugar de un solo elemento).
4	mapPartitions(func) Similar al mapa, pero se ejecuta por separado en cada partición (bloque) del RDD, por lo que func debe ser de tipo Iterator <T> ⇒ Iterator <U> cuando se ejecuta en un RDD de tipo T.
5	mapPartitionsWithIndex(func) Similar a las particiones de mapa, pero también proporciona func con un valor entero que representa el índice de la partición, entonces func debe ser de tipo (Int, Iterator <T>) ⇒ Iterator <U> cuando se ejecuta en un RDD de tipo T.
6	sample(withReplacement, fraction, seed) Muestra un fraction de los datos, con o sin reemplazo, utilizando una semilla generadora de números aleatorios dada.
7	union(otherDataset) Devuelve un nuevo conjunto de datos que contiene la unión de los elementos del conjunto de datos de origen y el argumento.
8	intersection(otherDataset) Devuelve un nuevo RDD que contiene la intersección de elementos en el conjunto de datos de origen y el argumento.
9	distinct([numTasks]) Devuelve un nuevo conjunto de datos que contiene los distintos elementos del conjunto de datos de origen.
10	groupByKey([numTasks]) Cuando se llama a un conjunto de datos de pares (K, V), devuelve un conjunto de datos de pares (K, Iterable <V>). Note - Si está agrupando para realizar una agregación (como una suma o promedio) sobre cada clave, el uso de reduceByKey o aggregateByKey producirá un rendimiento mucho mejor.
11	reduceByKey(func, [numTasks]) Cuando se llama en un conjunto de datos de pares (K, V), devuelve un conjunto de datos de pares (K, V), donde los valores para cada tecla se agregan utilizando la función dada reducir func , que debe ser de tipo (V, V) ⇒ V Como en groupByKey, la cantidad de tareas de reducción se puede configurar mediante un segundo argumento opcional.
12	aggregateByKey(zeroValue)(seqOp, combOp, [numTasks]) Cuando se llama a un conjunto de datos de pares (K, V), devuelve un conjunto de datos de pares (K, U) donde los valores de cada clave se agregan utilizando las funciones combinadas dadas y un valor "cero" neutral. Permite un tipo de valor agregado que es diferente del tipo de valor de entrada, al tiempo que evita asignaciones innecesarias. Como en groupByKey, el número de tareas de reducción se puede configurar a través de un segundo argumento opcional.
13	sortByKey([ascending], [numTasks]) Cuando se llama a un conjunto de datos de pares (K, V) donde K implementa Ordered, devuelve un conjunto de datos de pares (K, V) ordenados por claves en orden ascendente o descendente, como se especifica en el argumento ascendente booleano.
14	join(otherDataset, [numTasks]) Cuando se invoca en conjuntos de datos de tipo (K, V) y (K, W), devuelve un conjunto de datos de (K, (V, W)) pares con todos los pares de elementos para cada clave. Las combinaciones externas se admiten a través de leftOuterJoin, rightOuterJoin y fullOuterJoin.
15	cogroup(otherDataset, [numTasks]) Cuando se invoca en conjuntos de datos de tipo (K, V) y (K, W), devuelve un conjunto de datos de (K, (Iterable <V>, Iterable <W>)) tuplas. Esta operación también se denomina grupo con.
dieciséis	cartesian(otherDataset) Cuando se invoca en conjuntos de datos de tipos T y U, devuelve un conjunto de datos de pares (T, U) (todos los pares de elementos).
17	pipe(command, [envVars]) Canalice cada partición del RDD a través de un comando de shell, por ejemplo, un script en Perl o bash. Los elementos RDD se escriben en el stdin del proceso y las líneas de salida a su stdout se devuelven como un RDD de cadenas.
18	coalesce(numPartitions) Disminuya el número de particiones en el RDD a numPartitions. Útil para ejecutar operaciones de manera más eficiente después de filtrar un gran conjunto de datos.
19	repartition(numPartitions) Reorganice los datos en el RDD de forma aleatoria para crear más o menos particiones y equilibrarlas entre ellas. Esto siempre baraja todos los datos de la red.
20	repartitionAndSortWithinPartitions(partitioner) Reparta el RDD de acuerdo con el particionador dado y, dentro de cada partición resultante, ordena los registros por sus claves. Esto es más eficiente que llamar a repartición y luego ordenar dentro de cada partición porque puede empujar la ordenación hacia abajo en la maquinaria de reproducción aleatoria.

La siguiente tabla proporciona una lista de acciones, que devuelven valores.

S. No	Acción y significado
1	reduce(func) Agregue los elementos del conjunto de datos usando una función func(que toma dos argumentos y devuelve uno). La función debe ser conmutativa y asociativa para que se pueda calcular correctamente en paralelo.
2	collect() Devuelve todos los elementos del conjunto de datos como una matriz en el programa controlador. Esto suele ser útil después de un filtro u otra operación que devuelve un subconjunto suficientemente pequeño de datos.
3	count() Devuelve el número de elementos del conjunto de datos.
4	first() Devuelve el primer elemento del conjunto de datos (similar a take (1)).
5	take(n) Devuelve una matriz con la primera n elementos del conjunto de datos.
6	takeSample (withReplacement,num, [seed]) Devuelve una matriz con una muestra aleatoria de num elementos del conjunto de datos, con o sin reemplazo, opcionalmente pre-especificando una semilla generadora de números aleatorios.
7	takeOrdered(n, [ordering]) Devuelve el primero n elementos del RDD utilizando su orden natural o un comparador personalizado.
8	saveAsTextFile(path) Escribe los elementos del conjunto de datos como un archivo de texto (o un conjunto de archivos de texto) en un directorio dado en el sistema de archivos local, HDFS o cualquier otro sistema de archivos compatible con Hadoop. Spark llama a toString en cada elemento para convertirlo en una línea de texto en el archivo.
9	saveAsSequenceFile(path) (Java and Scala) Escribe los elementos del conjunto de datos como un archivo de secuencia de Hadoop en una ruta determinada en el sistema de archivos local, HDFS o cualquier otro sistema de archivos compatible con Hadoop. Está disponible en RDD de pares clave-valor que implementan la interfaz de escritura de Hadoop. En Scala, también está disponible en tipos que son implícitamente convertibles a Writable (Spark incluye conversiones para tipos básicos como Int, Double, String, etc.).
10	saveAsObjectFile(path) (Java and Scala) Escribe los elementos del conjunto de datos en un formato simple usando la serialización de Java, que luego se puede cargar usando SparkContext.objectFile ().
11	countByKey() Solo disponible en RDD de tipo (K, V). Devuelve un mapa hash de pares (K, Int) con el recuento de cada clave.
12	foreach(func) Ejecuta una función funcen cada elemento del conjunto de datos. Por lo general, esto se hace por efectos secundarios como actualizar un acumulador o interactuar con sistemas de almacenamiento externos. Note- La modificación de variables distintas de los acumuladores fuera de foreach () puede dar como resultado un comportamiento indefinido. Consulte Comprensión de los cierres para obtener más detalles.

La tabla que se proporciona a continuación describe una lista de options -

S. No	Opción	Descripción
1	--Maestro	spark: // host: puerto, mesos: // host: puerto, hilo o local.
2	--modo de implementación	Ya sea para iniciar el programa del controlador localmente ("cliente") o en una de las máquinas trabajadoras dentro del clúster ("clúster") (predeterminado: cliente).
3	--clase	La clase principal de su aplicación (para aplicaciones Java / Scala).
4	--nombre	Un nombre de su aplicación.
5	--frascos	Lista separada por comas de archivos jar locales para incluir en las rutas de clase del controlador y del ejecutor.
6	--paquetes	Lista separada por comas de coordenadas maven de jar para incluir en las rutas de clase del controlador y del ejecutor.
7	- repositorios	Lista separada por comas de repositorios remotos adicionales para buscar las coordenadas de maven dadas con --packages.
8	--py-archivos	Lista separada por comas de archivos .zip, .egg o .py para colocar en PYTHON PATH para aplicaciones Python.
9	--archivos	Lista de archivos separados por comas que se colocarán en el directorio de trabajo de cada ejecutor.
10	--conf (prop = val)	Propiedad de configuración de Spark arbitraria.
11	--archivo-de-propiedades	Ruta a un archivo desde el que cargar propiedades adicionales. Si no se especifica, buscará conf / spark-defaults.
12	--controlador-memoria	Memoria para el controlador (por ejemplo, 1000M, 2G) (predeterminado: 512M).
13	--driver-java-options	Opciones adicionales de Java para pasar al controlador.
14	- ruta-biblioteca-controlador	Entradas de ruta de biblioteca adicionales para pasar al controlador.
15	- ruta de clase de controlador	Entradas de ruta de clase adicionales para pasar al conductor. Tenga en cuenta que los archivos jar agregados con --jars se incluyen automáticamente en la ruta de clases.
dieciséis	--ejecutor-memoria	Memoria por ejecutor (por ejemplo, 1000M, 2G) (predeterminado: 1G).
17	--usuario-proxy	Usuario para suplantar al enviar la solicitud.
18	--ayuda, -h	Muestre este mensaje de ayuda y salga.
19	--verbose, -v	Imprima resultados de depuración adicionales.
20	--versión	Imprime la versión de Spark actual.
21	--driver-cores NUM	Núcleos para el controlador (predeterminado: 1).
22	--supervisar	Si se proporciona, reinicia el controlador en caso de falla.
23	--matar	Si se da, mata al conductor especificado.
24	--estado	Si se proporciona, solicita el estado del controlador especificado.
25	--total-ejecutor-núcleos	Núcleos totales para todos los ejecutores.
26	- núcleos de ejecutor	Número de núcleos por ejecutor. (Predeterminado: 1 en el modo YARN o todos los núcleos disponibles en el trabajador en modo independiente).

La siguiente es una lista de métodos numéricos disponibles en StatusCounter.

S. No	Métodos y significado
1	count() Número de elementos del RDD.
2	Mean() Promedio de los elementos del RDD.
3	Sum() Valor total de los elementos del RDD.
4	Max() Valor máximo entre todos los elementos del RDD.
5	Min() Valor mínimo entre todos los elementos del RDD.
6	Variance() Varianza de los elementos.
7	Stdev() Desviación Estándar.