Introducción a las estructuras de datos

Pandas se ocupa de las siguientes tres estructuras de datos:

  • Series
  • DataFrame
  • Panel

Estas estructuras de datos se construyen sobre la matriz Numpy, lo que significa que son rápidas.

Dimensión y descripción

La mejor manera de pensar en estas estructuras de datos es que la estructura de datos de mayor dimensión es un contenedor de su estructura de datos de menor dimensión. Por ejemplo, DataFrame es un contenedor de Series, Panel es un contenedor de DataFrame.

Estructura de datos Dimensiones Descripción
Serie 1 Matriz homogénea etiquetada 1D, tamaño inmutable.
Marcos de datos 2 Estructura tabular de tamaño mutable etiquetada en 2D general con columnas potencialmente heterogéneas.
Panel 3 Matriz general con etiqueta 3D, tamaño mutable.

La construcción y el manejo de matrices bidimensionales es una tarea tediosa, el usuario tiene la carga de considerar la orientación del conjunto de datos al escribir funciones. Pero al usar las estructuras de datos de Pandas, se reduce el esfuerzo mental del usuario.

Por ejemplo, con datos tabulares (DataFrame) es más útil semánticamente pensar en el index (las filas) y el columns en lugar del eje 0 y el eje 1.

Mutabilidad

Todas las estructuras de datos de Pandas tienen valor mutable (se pueden cambiar) y, excepto Series, todas son de tamaño mutable. La serie es de tamaño inmutable.

Note- DataFrame se utiliza ampliamente y es una de las estructuras de datos más importantes. El panel se usa mucho menos.

Serie

La serie es una estructura similar a una matriz unidimensional con datos homogéneos. Por ejemplo, la siguiente serie es una colección de números enteros 10, 23, 56,…

10 23 56 17 52 61 73 90 26 72

Puntos clave

  • Datos homogéneos
  • Tamaño inmutable
  • Valores de datos mutables

Marco de datos

DataFrame es una matriz bidimensional con datos heterogéneos. Por ejemplo,

Nombre Años Género Clasificación
Steve 32 Masculino 3,45
Lia 28 Hembra 4.6
Vin 45 Masculino 3.9
Katie 38 Hembra 2,78

La tabla representa los datos de un equipo de ventas de una organización con su calificación de desempeño general. Los datos se representan en filas y columnas. Cada columna representa un atributo y cada fila representa a una persona.

Tipo de datos de columnas

Los tipos de datos de las cuatro columnas son los siguientes:

Columna Tipo
Nombre Cuerda
Años Entero
Género Cuerda
Clasificación Flotador

Puntos clave

  • Datos heterogéneos
  • Tamaño mutable
  • Datos mutables

Panel

El panel es una estructura de datos tridimensional con datos heterogéneos. Es difícil representar el panel en representación gráfica. Pero un panel se puede ilustrar como un contenedor de DataFrame.

Puntos clave

  • Datos heterogéneos
  • Tamaño mutable
  • Datos mutables