hadoop amazon-s3 apache-spark mapreduce mesos

¿Apache spark puede funcionar sin hadoop?



amazon-s3 apache-spark (9)

¿Hay alguna dependencia entre Spark y Hadoop ?

Si no, ¿hay alguna característica que extrañaré cuando ejecute Spark sin Hadoop ?



Por defecto, Spark no tiene mecanismo de almacenamiento.

Para almacenar datos, necesita un sistema de archivos rápido y escalable. Puede usar S3 o HDFS o cualquier otro sistema de archivos. Hadoop es una opción económica debido al bajo costo.

Además, si usa Tachyon, aumentará el rendimiento con Hadoop. Es muy recomendable Hadoop para el procesamiento de apache spark .



Sí, la chispa puede funcionar sin hadoop. Todas las funciones principales de la chispa continuarán funcionando, pero perderá cosas como distribuir fácilmente todos sus archivos (código y datos) a todos los nodos en el clúster a través de hdfs, etc.


Sí, por supuesto. Spark es un marco de cálculo independiente. Hadoop es un sistema de almacenamiento de distribución (HDFS) con marco de cálculo MapReduce. Spark puede obtener datos de HDFS, así como de cualquier otra fuente de datos, como una base de datos tradicional (JDBC), kafka o incluso un disco local.


Sí, puede instalar el Spark sin el Hadoop. Eso sería un poco complicado. Puede hacer referencia a arnon link para usar parquet para configurar en S3 como almacenamiento de datos. here

Spark solo procesa y usa memoria dinámica para realizar la tarea, pero para almacenar los datos necesita algún sistema de almacenamiento de datos. Aquí hadoop entra en el papel de Spark, proporciona el almacenamiento para Spark. Una razón más para usar Hadoop con Spark es que son de código abierto y ambos pueden integrarse entre sí fácilmente en comparación con otros sistemas de almacenamiento de datos. Para otro almacenamiento como S3, debería ser complicado configurarlo como se menciona en el enlace anterior.

Pero Hadoop también tiene su unidad de procesamiento llamada Mapreduce.

¿Quieres saber la diferencia en ambos?

Consulte este artículo: https://www.dezyre.com/article/hadoop-mapreduce-vs-apache-spark-who-wins-the-battle/83

Creo que este artículo te ayudará a entender

  • que usar

  • cuando usar y

  • cómo utilizar !!!


Según la documentación de Spark, Spark puede ejecutarse sin Hadoop.

Puede ejecutarlo como modo independiente sin ningún administrador de recursos.

Pero si desea ejecutar en la configuración de múltiples nodos , necesita un administrador de recursos como YARN o Mesos y un sistema de archivos distribuido como HDFS, S3, etc.


Spark puede ejecutarse sin Hadoop, pero parte de su funcionalidad se basa en el código de Hadoop (por ejemplo, manejo de archivos de Parquet). Estamos ejecutando Spark en Mesos y S3, que fue un poco complicado de configurar, pero funciona muy bien una vez hecho (puede leer un resumen de lo que se necesita para configurarlo correctamente here ).

(Editar) Nota: desde la versión 2.3.0 Spark también agregó soporte nativo para Kubernetes


Spark es un motor informático distribuido en memoria.

Hadoop es un marco para el almacenamiento distribuido ( HDFS ) y el procesamiento distribuido ( YARN ).

Spark puede ejecutarse con o sin componentes Hadoop (HDFS / YARN)

Almacenamiento distribuido:

Dado que Spark no tiene su propio sistema de almacenamiento distribuido, tiene que depender de uno de estos sistemas de almacenamiento para la informática distribuida.

S3 : trabajos por lotes no urgentes. S3 se ajusta a casos de uso muy específicos cuando la localidad de datos no es crítica.

Cassandra : perfecto para el análisis de transmisión de datos y una exageración para trabajos por lotes.

HDFS : ideal para trabajos por lotes sin comprometer la ubicación de los datos.

Procesamiento distribuido:

Puedes ejecutar Spark en tres modos diferentes: Standalone, YARN y Mesos

Consulte la siguiente pregunta SE para obtener una explicación detallada sobre el almacenamiento distribuido y el procesamiento distribuido.

¿Qué tipo de clúster debo elegir para Spark?