python - tutorial - Cargando un conjunto de datos del archivo, para usar con sklearn
tutorial python machine learning (1)
Puede usar la función genfromtxt de numpy para recuperar datos del archivo ( http://docs.scipy.org/doc/numpy/reference/generated/numpy.genfromtxt.html )
import numpy as np
mydata = np.genfromtxt(filename, delimiter=",")
Sin embargo, si tiene columnas textuales, usar genfromtxt es más complicado, ya que necesita especificar los tipos de datos.
Será mucho más fácil con la excelente biblioteca Pandas ( http://pandas.pydata.org/ )
import pandas as pd
mydata = pd.read_csv(filename)
target = mydata["Label"] #provided your csv has header row, and the label column is named "Label"
#select all but the last column as data
data = mydata.ix[:,:-1]
Vi que con sklearn podemos usar algunos datasets predefinidos, por ejemplo mydataset = datasets.load_digits()
, podemos obtener una matriz (una matriz numpy?) Del conjunto de datos mydataset.data
y una matriz de las etiquetas correspondientes mydataset.target
. Sin embargo, quiero cargar mi propio conjunto de datos para poder usarlo con sklearn. ¿Cómo y en qué formato debo cargar mis datos? Mi archivo tiene el siguiente formato (cada línea es un punto de datos):
-0.2080,0.3480,0.3280,0.5040,0.9320,1.0000,label1
-0.2864,0.1992,0.2822,0.4398,0.7012,0.7800,label3
...
...
-0.2348,0.3826,0.6142,0.7492,0.0546,-0.4020,label2
-0.1856,0.3592,0.7126,0.7366,0.3414,0.1018,label1