mega - airflow pc
Paralelismo del flujo de aire (2)
El Ejecutor Local genera nuevos procesos al programar tareas. ¿Hay un límite en la cantidad de procesos que crea? Necesitaba cambiarlo. Necesito saber cuál es la diferencia entre "max_threads" y "paralelismo" del programador en airflow.cfg?
max_threads
del programador es el número de procesos para paralelizar el programador. Los max_threads
no pueden exceder el conteo de cpu. El paralelismo de LocalExecutor es el número de tareas simultáneas que debe ejecutar LocalExecutor. Tanto el programador como LocalExecutor utilizan la biblioteca de multiprocesamiento de python para el paralelismo.
paralelismo: no es un nombre muy descriptivo. La descripción dice que establece las instancias máximas de tareas para la instalación de flujo de aire, que es un poco ambigua; si tengo dos hosts que ejecutan trabajadores de flujo de aire, tendré el flujo de aire instalado en dos hosts, por lo que deberían ser dos instalaciones, pero según el contexto ''por instalación'' aquí significa ''por base de datos de estado de Airflow''. Yo nombraría este max_active_tasks.
dag_concurrency: A pesar del nombre basado en el comentario, esta es en realidad la concurrencia de la tarea y es por trabajador. Nombraría a max_active_tasks_for_worker (per_worker sugeriría que es una configuración global para los trabajadores, pero creo que puede tener trabajadores con diferentes valores establecidos para esto).
max_active_runs_per_dag : Este está un poco bien, pero como parece ser solo un valor predeterminado para el kwarg DAG correspondiente, puede ser bueno reflejar eso en el nombre, algo como default_max_active_runs_for_dags Así que avancemos a los kaggs del DAG
concurrencia : de nuevo, tener un nombre general como este, junto con el hecho de que la concurrencia se usa para algo diferente en otro lugar, hace que esto sea bastante confuso. Yo llamaría a esto max_active_tasks.
max_active_runs : Este suena bien para mí.
fuente: https://issues.apache.org/jira/browse/AIRFLOW-57
max_threads le da al usuario cierto control sobre el uso de la CPU. Se especifica el paralelismo programador.