Ciencia de datos ágil: visualización de datos

La visualización de datos juega un papel muy importante en la ciencia de datos. Podemos considerar la visualización de datos como un módulo de ciencia de datos. La ciencia de datos incluye más que la creación de modelos predictivos. Incluye explicación de modelos y su uso para comprender datos y tomar decisiones. La visualización de datos es una parte integral de la presentación de datos de la manera más convincente.

Desde el punto de vista de la ciencia de datos, la visualización de datos es una característica destacada que muestra los cambios y tendencias.

Considere las siguientes pautas para una visualización de datos efectiva:

  • Coloque los datos a lo largo de una escala común.

  • El uso de barras es más efectivo en comparación con círculos y cuadrados.

  • Se debe utilizar el color adecuado para los diagramas de dispersión.

  • Utilice un gráfico circular para mostrar proporciones.

  • La visualización de rayos solares es más eficaz para gráficos jerárquicos.

Agile necesita un lenguaje de secuencias de comandos simple para la visualización de datos y con la ciencia de datos en colaboración "Python" es el lenguaje sugerido para la visualización de datos.

Ejemplo 1

El siguiente ejemplo demuestra la visualización de datos del PIB calculado en años específicos. “Matplotlib” es la mejor biblioteca para visualización de datos en Python. La instalación de esta biblioteca se muestra a continuación:

Considere el siguiente código para comprender esto:

import matplotlib.pyplot as plt
years = [1950, 1960, 1970, 1980, 1990, 2000, 2010]
gdp = [300.2, 543.3, 1075.9, 2862.5, 5979.6, 10289.7, 14958.3]

# create a line chart, years on x-axis, gdp on y-axis
plt.plot(years, gdp, color='green', marker='o', linestyle='solid')

# add a title plt.title("Nominal GDP")
# add a label to the y-axis
plt.ylabel("Billions of $")
plt.show()

Salida

El código anterior genera la siguiente salida:

Hay muchas formas de personalizar los gráficos con etiquetas de eje, estilos de línea y marcadores de puntos. Centrémonos en el siguiente ejemplo que demuestra la mejor visualización de datos. Estos resultados se pueden utilizar para obtener mejores resultados.

Ejemplo 2

import datetime
import random
import matplotlib.pyplot as plt

# make up some data
x = [datetime.datetime.now() + datetime.timedelta(hours=i) for i in range(12)]
y = [i+random.gauss(0,1) for i,_ in enumerate(x)]

# plot
plt.plot(x,y)

# beautify the x-labels
plt.gcf().autofmt_xdate()
plt.show()

Salida

El código anterior genera la siguiente salida: