tutorial summoners spark pig meaning espaƱol com2us hadoop hive

hadoop - summoners - hive meaning



Colmena: agregar filas a la tabla existente (1)

Planeo usar hadoop y colmena para resolver el siguiente problema:

Tengo un flujo de datos, por ejemplo, de la forma (marca de tiempo, temperatura) que representa la temperatura medida en la marca de tiempo determinada. Necesito calcular algunos agregados (p. Ej., Max.) A diario. Los agregados deben calcularse una vez al día (por ejemplo, a medianoche).

Pensé en cargar los datos de alguna manera para colgarlos, dividiéndolos por fecha. Sin embargo, hay un problema: los datos en la transmisión no necesitan ordenarse por marca de tiempo, recibo registros retrasados: un registro puede llegar incluso un par de días más tarde de lo que debería. En este caso, al generar los agregados habituales, también necesito calcular los agregados del día que contengan esa marca de tiempo.

Intuitivamente, me gustaría agregar el último registro a la partición respectiva en la tabla de la colmena. ¿Es posible hacer esto sin volver a cargar toda la partición? (¿y es una operación costosa recargar una partición?)


No creo que sea posible en este momento agregar un registro a una partición (o una tabla, para el caso), por lo que tendrá que ordenar los registros antes de cargar la partición en la tabla: parece una fase procesar para mí

Sin embargo, creo que puede sobrescribir una partición, por lo que al menos podría manejar la partición modificada.

Por el momento, al menos, la colmena es un sistema orientado por lotes.