Python - Pandas

Pandas es una biblioteca de Python de código abierto que se utiliza para la manipulación y el análisis de datos de alto rendimiento utilizando sus poderosas estructuras de datos. Python con pandas se usa en una variedad de dominios académicos y comerciales, que incluyen finanzas, economía, estadísticas, publicidad, análisis web y más. Con Pandas, podemos lograr cinco pasos típicos en el procesamiento y análisis de datos, independientemente del origen de los datos: cargar, organizar, manipular, modelar y analizar los datos.

A continuación se muestran algunas de las características importantes de Pandas que se utilizan específicamente para el trabajo de procesamiento y análisis de datos.

Características clave de los pandas

Objeto DataFrame rápido y eficiente con indexación predeterminada y personalizada.
Herramientas para cargar datos en objetos de datos en memoria desde diferentes formatos de archivo.
Alineación de datos y manejo integrado de datos faltantes.
Remodelación y rotación de conjuntos de fechas.
División, indexación y subconjunto basado en etiquetas de grandes conjuntos de datos.
Las columnas de una estructura de datos se pueden eliminar o insertar.
Agrupar por datos para agregación y transformaciones.
Fusión y unión de datos de alto rendimiento.
Funcionalidad de series temporales.

Pandas se ocupa de las siguientes tres estructuras de datos:

Series
DataFrame

Estas estructuras de datos se construyen sobre la matriz Numpy, lo que las hace rápidas y eficientes.

Dimensión y descripción

La mejor manera de pensar en estas estructuras de datos es que la estructura de datos de mayor dimensión es un contenedor de su estructura de datos de menor dimensión. Por ejemplo, DataFrame es un contenedor de Series, Panel es un contenedor de DataFrame.

Estructura de datos	Dimensiones	Descripción
Serie	1	Matriz homogénea etiquetada 1D, tamaño inmutable.
Marcos de datos	2	Estructura tabular de tamaño mutable etiquetada en 2D general con columnas potencialmente heterogéneas.

DataFrame se usa ampliamente y es la estructura de datos más importante.

Serie

La serie es una estructura similar a una matriz unidimensional con datos homogéneos. Por ejemplo, la siguiente serie es una colección de números enteros 10, 23, 56,…

10	23	56	17	52	61	73	90	26	72

Puntos clave de la serie

Datos homogéneos
Tamaño inmutable
Valores de datos mutables

Marco de datos

DataFrame es una matriz bidimensional con datos heterogéneos. Por ejemplo,

Nombre	Años	Género	Clasificación
Steve	32	Masculino	3,45
Lia	28	Hembra	4.6
Vin	45	Masculino	3.9
Katie	38	Hembra	2,78

La tabla representa los datos de un equipo de ventas de una organización con su calificación de desempeño general. Los datos se representan en filas y columnas. Cada columna representa un atributo y cada fila representa a una persona.

Tipo de datos de columnas

Los tipos de datos de las cuatro columnas son los siguientes:

Columna	Tipo
Nombre	Cuerda
Años	Entero
Género	Cuerda
Clasificación	Flotador

Puntos clave del marco de datos

Datos heterogéneos
Tamaño mutable
Datos mutables

Veremos muchos ejemplos sobre el uso de la biblioteca pandas de python en el trabajo de ciencia de datos en los próximos capítulos.

↰ Previous page Next page ↱