Python - Pandas

Pandas es una biblioteca de Python de código abierto que se utiliza para la manipulación y el análisis de datos de alto rendimiento utilizando sus poderosas estructuras de datos. Python con pandas se usa en una variedad de dominios académicos y comerciales, que incluyen finanzas, economía, estadísticas, publicidad, análisis web y más. Con Pandas, podemos lograr cinco pasos típicos en el procesamiento y análisis de datos, independientemente del origen de los datos: cargar, organizar, manipular, modelar y analizar los datos.

A continuación se muestran algunas de las características importantes de Pandas que se utilizan específicamente para el trabajo de procesamiento y análisis de datos.

Características clave de los pandas

  • Objeto DataFrame rápido y eficiente con indexación predeterminada y personalizada.
  • Herramientas para cargar datos en objetos de datos en memoria desde diferentes formatos de archivo.
  • Alineación de datos y manejo integrado de datos faltantes.
  • Remodelación y rotación de conjuntos de fechas.
  • División, indexación y subconjunto basado en etiquetas de grandes conjuntos de datos.
  • Las columnas de una estructura de datos se pueden eliminar o insertar.
  • Agrupar por datos para agregación y transformaciones.
  • Fusión y unión de datos de alto rendimiento.
  • Funcionalidad de series temporales.

Pandas se ocupa de las siguientes tres estructuras de datos:

  • Series
  • DataFrame

Estas estructuras de datos se construyen sobre la matriz Numpy, lo que las hace rápidas y eficientes.

Dimensión y descripción

La mejor manera de pensar en estas estructuras de datos es que la estructura de datos de mayor dimensión es un contenedor de su estructura de datos de menor dimensión. Por ejemplo, DataFrame es un contenedor de Series, Panel es un contenedor de DataFrame.

Estructura de datos Dimensiones Descripción
Serie 1 Matriz homogénea etiquetada 1D, tamaño inmutable.
Marcos de datos 2 Estructura tabular de tamaño mutable etiquetada en 2D general con columnas potencialmente heterogéneas.

DataFrame se usa ampliamente y es la estructura de datos más importante.

Serie

La serie es una estructura similar a una matriz unidimensional con datos homogéneos. Por ejemplo, la siguiente serie es una colección de números enteros 10, 23, 56,…

10 23 56 17 52 61 73 90 26 72

Puntos clave de la serie

  • Datos homogéneos
  • Tamaño inmutable
  • Valores de datos mutables

Marco de datos

DataFrame es una matriz bidimensional con datos heterogéneos. Por ejemplo,

Nombre Años Género Clasificación
Steve 32 Masculino 3,45
Lia 28 Hembra 4.6
Vin 45 Masculino 3.9
Katie 38 Hembra 2,78

La tabla representa los datos de un equipo de ventas de una organización con su calificación de desempeño general. Los datos se representan en filas y columnas. Cada columna representa un atributo y cada fila representa a una persona.

Tipo de datos de columnas

Los tipos de datos de las cuatro columnas son los siguientes:

Columna Tipo
Nombre Cuerda
Años Entero
Género Cuerda
Clasificación Flotador

Puntos clave del marco de datos

  • Datos heterogéneos
  • Tamaño mutable
  • Datos mutables

Veremos muchos ejemplos sobre el uso de la biblioteca pandas de python en el trabajo de ciencia de datos en los próximos capítulos.