PyTorch incluye un paquete llamado torchvision que se usa para cargar y preparar el conjunto de datos. Incluye dos funciones básicas, a saber, Dataset y DataLoader, que ayudan en la transformación y carga del conjunto de datos.
Conjunto de datos
El conjunto de datos se usa para leer y transformar un punto de datos del conjunto de datos dado. La sintaxis básica para implementar se menciona a continuación:
trainset = torchvision.datasets.CIFAR10(root = './data', train = True,
download = True, transform = transform)
DataLoader se utiliza para mezclar y procesar datos por lotes. Se puede utilizar para cargar los datos en paralelo con los trabajadores de multiprocesamiento.
trainloader = torch.utils.data.DataLoader(trainset, batch_size = 4,
shuffle = True, num_workers = 2)
Ejemplo: carga de archivo CSV
Usamos el paquete Python Panda para cargar el archivo csv. El archivo original tiene el siguiente formato: (nombre de la imagen, 68 puntos de referencia; cada punto de referencia tiene coordenadas ax, y).
landmarks_frame = pd.read_csv('faces/face_landmarks.csv')
n = 65
img_name = landmarks_frame.iloc[n, 0]
landmarks = landmarks_frame.iloc[n, 1:].as_matrix()
landmarks = landmarks.astype('float').reshape(-1, 2)