sqoop duplicate-data

Registros parciales y duplicados durante la importación de sqoop



duplicate-data (1)

Cuando se usa el campo split-by y no es entero.

Sqoop usa TextSplitter que proporciona una advertencia de la siguiente manera:

WARN db.TextSplitter: If your database sorts in a case-insensitive order, this may result in a partial import or duplicate records WARN db.TextSplitter: You are strongly encouraged to choose an integral split column.

  • solución 1: use un solo mapeador o 2
  • solución 2: use la función de rango en la consulta y use --split-by en el campo de rango
  • solución 3: ordenar el campo --split-by en orden ascendente en la consulta

La importación de Sqoop está dando como resultado registros duplicados / parciales cuando estamos usando la siguiente configuración

  • --query - Consulta personalizada
  • --split-by - Columna no entera (char)
  • --num-mappers - Más de 2

Verificado el recuento de datos fuente decir 1000 registros

Verificado el conteo de datos de importación dice 1923 registros