Hay dos tipos. Mesa gestionada y mesa exterior. En la tabla administrada, tanto los datos como un esquema están bajo el control de Hive, pero en la tabla externa solo el esquema está bajo el control de Hive.
No Hive no proporciona inserción y actualización a nivel de fila. Por lo que no es adecuado para el sistema OLTP.
Modificar tabla table_name RENAME TO new_name
Usando la opción de columna REEMPLAZAR
ALTER TABLE nombre_tabla REEMPLAZAR COLUMNAS ……
Es una base de datos relacional que almacena los metadatos de las tablas, particiones, bases de datos de Hive, etc.
Dependiendo de la naturaleza de los datos que tenga el usuario, es posible que el SerDe incorporado no satisfaga el formato de los datos. Los usuarios de SO necesitan escribir su propio código Java para satisfacer sus requisitos de formato de datos.
Hive es una herramienta en el ecosistema de Hadoop que proporciona una interfaz para organizar y consultar datos en una base de datos y escribir consultas de tipo SQL. Es adecuado para acceder y analizar datos en Hadoop utilizando sintaxis SQL.
hdfs: // nombre_servidor_nodo / usuario / colmena / almacén
- Modo local
- Modo distribuido
- Modo pseudodistribuido
Si. Los tipos de datos TIMESTAMP almacenan la fecha en formato java.sql.timestamp
Hay tres tipos de datos de recopilación en Hive.
- ARRAY
- MAP
- STRUCT
Sí, usando el! marque justo antes del comando.
Por ejemplo,! Pwd en el indicador de colmena mostrará el directorio actual.
La variable de Hive es una variable creada en el entorno de Hive a la que pueden hacer referencia los scripts de Hive. Se utiliza para pasar algunos valores a las consultas de colmena cuando la consulta comienza a ejecutarse.
Usando el comando fuente.
Example −
Hive> fuente /ruta/a/archivo/archivo_con_query.hql
Es un archivo que contiene la lista de comandos que se deben ejecutar cuando se inicia la CLI de hive. Por ejemplo, establecer que el modo estricto sea verdadero, etc.
El delimitador de registro predeterminado es - \ n
Y los delimitadores archivados son - \ 001, \ 002, \ 003
El esquema se valida con los datos al leer los datos y no se aplica al escribir datos.
MOSTRAR BASES DE DATOS COMO 'p. *'
Con el comando use, arregla la base de datos en la que se ejecutarán todas las consultas posteriores de Hive.
No hay forma de que pueda eliminar DBPROPERTY.
Establece los trabajos de mapreduce en modo estricto, por lo que las consultas en tablas particionadas no se pueden ejecutar sin una cláusula WHERE. Esto evita que se ejecuten trabajos muy grandes durante mucho tiempo.
Esto se puede hacer con la siguiente consulta
SHOW PARTITIONS table_name PARTITION(partitioned_column=’partition_value’)
org.apache.hadoop.mapred.TextInputFormat
org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
Cuando emitimos el comando DROP TABLE IF EXISTS table_name
Hive arroja un error si la tabla que se quita no existe en primer lugar.
Los datos permanecen en la ubicación anterior. Tiene que moverse manualmente.
ALTER TABLE table_name
CHANGE COLUMN new_col INT
BEFORE x_col
No. Solo reduce la cantidad de archivos, lo que resulta más fácil de administrar para namenode.
Utilizando la cláusula ENABLE OFFLINE con el atributo ALTER TABLE.
Omitiendo la CLAUSULA LOCAL en la instrucción LOAD DATA.
Los nuevos archivos entrantes simplemente se agregan al directorio de destino y los archivos existentes simplemente se sobrescriben. Seguirán existiendo otros archivos cuyo nombre no coincida con ninguno de los archivos entrantes.
Si agrega la cláusula OVERWRITE, todos los datos existentes en el directorio se eliminarán antes de que se escriban nuevos datos.
Crea una partición en los empleados de la tabla con valores de partición provenientes de las columnas de la cláusula select. Se llama inserción de partición dinámica.
Una función generadora de tablas es una función que toma una sola columna como argumento y la expande a múltiples columnas o filas. Ejemplo exploe ()
Si establecemos la propiedad hive.exec.mode.local.auto en true, hive evitará que mapreduce recupere los resultados de la consulta.
El operador LIKE se comporta de la misma manera que los operadores SQL habituales que se utilizan en las consultas seleccionadas. Ejemplo -
street_name como '% Chi'
Pero el operador RLIKE usa expresiones regulares más avanzadas que están disponibles en java
Ejemplo: street_name RLIKE '. * (Chi | Oho). *' Que seleccionará cualquier palabra que contenga chi u oho.
No. Como este tipo de unión no se puede implementar en mapreduce
En una consulta de combinación, la tabla más pequeña que se tomará en la primera posición y la tabla más grande se debe tomar en la última posición.
Controla cómo se reduce la salida del mapa entre los reductores. Es útil en caso de transmisión de datos.
Seleccionar reparto (precio como FLOAT)
Hive devolverá NULL
No. El nombre de una vista debe ser único en comparación con todas las demás tablas y vistas presentes en la misma base de datos.
No. Una vista no puede ser el destino de una instrucción INSERT o LOAD.
Los índices ocupan espacio y hay un costo de procesamiento en la organización de los valores de la columna en la que se coloca el índice.
MOSTRAR ÍNDICE EN table_name
Esto mostrará una lista de todos los índices creados en cualquiera de las columnas de la tabla table_name.
Los valores de una columna se procesan en una serie de depósitos que define el usuario. Es una forma de evitar demasiadas particiones o particiones anidadas al mismo tiempo que se optimiza la salida de consultas.
Es una sugerencia de consulta transmitir una tabla a la memoria antes de ejecutar la consulta. Es una técnica de optimización de consultas.
Si. Se puede archivar una partición. La ventaja es que disminuye la cantidad de archivos almacenados en namenode y el archivo archivado se puede consultar usando hive. La desventaja es que provocará consultas menos eficientes y no ofrece ningún ahorro de espacio.
Es una UDF que se crea utilizando un programa java para servir a algunas necesidades específicas que no están cubiertas por las funciones existentes en Hive. Puede detectar el tipo de argumento de entrada mediante programación y proporcionar la respuesta adecuada.
La ruta de acceso local debe contener un archivo y no un directorio. $ Env: HOME es una variable válida disponible en el entorno de colmena.
La cláusula TBLPROPERTIES se usa para agregar el nombre del creador al crear una tabla.
El TBLPROPERTIES se agrega como -
TBLPROPERTIES(‘creator’= ‘Joan’)