Registros parciales y duplicados durante la importación de sqoop
duplicate-data (1)
Cuando se usa el campo split-by
y no es entero.
Sqoop usa TextSplitter que proporciona una advertencia de la siguiente manera:
WARN db.TextSplitter: If your database sorts in a case-insensitive order, this may result in a partial import or duplicate records
WARN db.TextSplitter: You are strongly encouraged to choose an integral split column.
- solución 1: use un solo mapeador o 2
- solución 2: use la función de rango en la consulta y use
--split-by
en el campo de rango - solución 3: ordenar el campo
--split-by
en orden ascendente en la consulta
La importación de Sqoop está dando como resultado registros duplicados / parciales cuando estamos usando la siguiente configuración
-
--query
- Consulta personalizada -
--split-by
- Columna no entera (char) -
--num-mappers
- Más de 2
Verificado el recuento de datos fuente decir 1000 registros
Verificado el conteo de datos de importación dice 1923 registros