usar tablas que para panda libreria leer funciones ejemplo documentacion datos data como comandos cleaning python numpy pandas

tablas - funciones panda python



¿Hay una diferencia en el cálculo para Numpy vs Pandas? (2)

Creo que se trata más de usar los dos de manera estratégica y de cambiar los datos (de numpy a pandas o viceversa) en función del rendimiento que se ve. Como ejemplo reciente, estaba tratando de concatenar 4 archivos de encurtidos pequeños con 10k filas cada data.shape -> (10,000, 4) usando numpy.

El código era algo así como:

n_concat = np.empty((0,4)) for file_path in glob.glob(''data/0*'', recursive=False): n_data = joblib.load(file_path) n_concat = np.vstack((co_np, filtered_snp)) joblib.dump(co_np, ''data/save_file.pkl'', compress = True)

Esto estrelló mi computadora portátil (8 GB, i5), lo cual fue sorprendente ya que el volumen no era realmente tan grande. Los 4 archivos decapados comprimidos tenían aproximadamente 5 MB cada uno.

Lo mismo, funcionó muy bien en pandas.

for file_path in glob.glob(''data/0*'', recursive=False): n_data = joblib.load(sd) try: df = pd.concat([df, pd.DataFrame(n_data, columns = [...])]) except NameError: df = pd.concat([pd.DataFrame(n_data,columns = [...])]) joblib.dump(df, ''data/save_file.pkl'', compress = True)

Por otro lado, cuando estaba implementando el descenso de gradiente mediante la iteración de un marco de datos de pandas, era terriblemente lento, mientras que el uso de números para el trabajo era mucho más rápido.

En general, he visto que los pandas por lo general funcionan mejor para moverse / munición de trozos de datos moderadamente grandes y realizar operaciones de columna comunes, mientras que el trabajo con números funciona mejor para trabajos vectorizados y recursivos (tal vez trabajo más intenso en matemáticas) en conjuntos de datos más pequeños.

Mover datos entre los dos es sin complicaciones, así que supongo que usar ambos estratégicamente es el camino a seguir.

He escrito un montón de código en el supuesto de que iba a utilizar matrices Numpy. Resulta que los datos que estoy obteniendo se cargan a través de Pandas. Ahora recuerdo que lo cargué en Pandas porque tenía algunos problemas para cargarlo en Numpy. Creo que los datos eran demasiado grandes.

Por lo tanto, me preguntaba: ¿hay alguna diferencia en la capacidad de cálculo al usar Numpy vs Pandas?

Si Pandas es más eficiente, preferiría reescribir todo mi código para Pandas, pero si no hay más eficiencia, solo usaré una matriz numpy ...