python - tutorial - Cargando un conjunto de datos del archivo, para usar con sklearn

tutorial python machine learning (1)

Puede usar la función genfromtxt de numpy para recuperar datos del archivo ( http://docs.scipy.org/doc/numpy/reference/generated/numpy.genfromtxt.html )

import numpy as np mydata = np.genfromtxt(filename, delimiter=",")

Sin embargo, si tiene columnas textuales, usar genfromtxt es más complicado, ya que necesita especificar los tipos de datos.

Será mucho más fácil con la excelente biblioteca Pandas ( http://pandas.pydata.org/ )

import pandas as pd mydata = pd.read_csv(filename) target = mydata["Label"] #provided your csv has header row, and the label column is named "Label" #select all but the last column as data data = mydata.ix[:,:-1]

Vi que con sklearn podemos usar algunos datasets predefinidos, por ejemplo mydataset = datasets.load_digits() , podemos obtener una matriz (una matriz numpy?) Del conjunto de datos mydataset.data y una matriz de las etiquetas correspondientes mydataset.target . Sin embargo, quiero cargar mi propio conjunto de datos para poder usarlo con sklearn. ¿Cómo y en qué formato debo cargar mis datos? Mi archivo tiene el siguiente formato (cada línea es un punto de datos):

-0.2080,0.3480,0.3280,0.5040,0.9320,1.0000,label1 -0.2864,0.1992,0.2822,0.4398,0.7012,0.7800,label3 ... ... -0.2348,0.3826,0.6142,0.7492,0.0546,-0.4020,label2 -0.1856,0.3592,0.7126,0.7366,0.3414,0.1018,label1