instalar - ¿Cuál es la mejor manera de comenzar y detener ecosistema hadoop, con línea de comando?

instalar cluster hadoop (3)

Desde la page Hadoop,

start-all.sh

Esto iniciará un Namenode, Datanode, Jobtracker y un Tasktracker en su máquina.

start-dfs.sh

Esto abrirá HDFS con Namenode ejecutándose en la máquina en la que ejecutó el comando. En una máquina de este tipo, necesitaría start-mapred.sh para iniciar por separado el rastreador de trabajos

start-all.sh/stop-all.sh tiene que ejecutarse en el nodo maestro

Utilizaría start-all.sh en un clúster de nodo único (es decir, donde tendría todos los servicios en el mismo nodo. El namenode también es el nodo de datos y es el nodo maestro).

En la configuración multinodo,

Utilizará start-all.sh en el nodo maestro y también iniciará lo que sea necesario en los esclavos.

Alternativamente,

Use start-dfs.sh en el nodo en el que desea que se ejecute Namenode . Esto mostrará HDFS con el Namenode ejecutándose en la máquina en la que ejecutó el comando y los Nodos de datos en las máquinas enumeradas en el archivo de esclavos.

Use start-mapred.sh en la máquina en la que planea ejecutar Jobtracker . Esto abrirá el clúster de Mapa / Reducción con Jobtracker ejecutándose en la máquina en la que ejecutó el comando y los TaskTrackers que se ejecutan en las máquinas enumeradas en el archivo de esclavos.

hadoop-daemon.sh como lo indica Tariq se usa en cada nodo individual. El nodo maestro no iniciará los servicios en los esclavos. En una configuración de nodo único, esto actuará igual que start-all.sh . En una configuración de varios nodos, deberá acceder a cada nodo (maestro y esclavos) y ejecutar en cada uno de ellos.

Eche un vistazo a this start-all.sh it call config seguido de dfs y mapred

Veo que hay varias formas en que podemos comenzar el ecosistema de hadoop,

start-all.sh & stop-all.sh Que dicen que está en desuso, use start-dfs.sh & start-yarn.sh.
start-dfs.sh, stop-dfs.sh and start-yarn.sh, stop-yarn.sh
hadoop-daemon.sh namenode/datanode and yarn-deamon.sh resourcemanager

EDITAR: Creo que tiene que haber algunos casos de uso específicos para cada comando.

Comenzando

start-dfs.sh (starts the namenode and the datanode) start-mapred.sh (starts the jobtracker and the tasktracker)

Parada

stop-dfs.sh stop-mapred.sh

start-all.sh & stop-all.sh: se usa para iniciar y detener los daemons de hadoop de una sola vez. Emitirlo en la máquina maestra iniciará / detendrá los daemons en todos los nodos de un clúster. Obsoleto como ya has notado.

start-dfs.sh, stop-dfs.sh y start-yarn.sh, stop-yarn.sh: Igual que el anterior pero inicie / detenga los daemons HDFS y YARN por separado en todos los nodos de la máquina maestra. Es aconsejable utilizar estos comandos ahora en start-all.sh & stop-all.sh

hadoop-daemon.sh namenode / datanode y yarn-deamon.sh resourcemanager: para iniciar demonios individuales en una máquina individual manualmente. Necesitas ir a un nodo particular y emitir estos comandos.

Caso de uso: supongamos que ha agregado un nuevo DN a su clúster y necesita iniciar el demonio DN solo en esta máquina,

bin/hadoop-daemon.sh start datanode

Nota: Debe tener habilitado ssh si desea iniciar todos los daemons en todos los nodos de una máquina.

Espero que esto responda a su consulta.