machine-learning - recurrente - redes neuronales convolucionales

Proporción Óptima de Característica a Instancia en la Red Neuronal de Propagación Posterior (1)

(Este tema a menudo se expresa en la literatura ML como tamaño o forma aceptable del conjunto de datos, dado que un conjunto de datos a menudo se describe como una matriz mxn en la que m es el número de filas (puntos de datos) yn es el número de filas columnas (características); se prefiere m >> n obvio)

En un evento, no conozco una regla general para un rango aceptable de características-a-observaciones; Probablemente haya un par de razones para esto:

tal relación dependería fuertemente de la calidad de los datos (relación señal-ruido); y
el número de características es solo un elemento de la complejidad del modelo (por ejemplo, la interacción entre las características); y la complejidad del modelo es el determinante más fuerte del número de instancias de datos (puntos de datos).

Entonces, hay dos conjuntos de enfoques para este problema, que, debido a que son opuestos, ambos se pueden aplicar al mismo modelo:

reducir la cantidad de funciones; o
utilice una técnica estadística para aprovechar los datos que tiene

Un par de sugerencias, una para cada uno de los dos caminos anteriores:

Elimine las características "no importantes", es decir , aquellas características que no contribuyen a la variabilidad en su variable de respuesta. El Análisis de Componentes Principales (PCA) es una manera rápida y confiable de hacerlo, aunque existen otras técnicas que generalmente se incluyen en la rúbrica "reducción de dimensiones".
Use métodos Bootstrap en lugar de validación cruzada. La diferencia en la metodología parece leve, pero la mejora (a menudo sustancial) en la reducción del error de predicción está bien documentada para los perceptrones multicapa (redes neuronales) (véase, por ejemplo, Efron, B. y Tibshirani, RJ, The bootstrap method: Mejoras en validación , J. of the American Statistical Association , 92, 548-560., 1997). Si no está familiarizado con los métodos de Bootstrap para dividir el entrenamiento y los datos de prueba, la técnica general es similar a la validación cruzada, excepto que en lugar de tomar subconjuntos de todo el conjunto de datos, toma submuestras . La Sección 7.11 de Elementos es una buena introducción a los métodos de Bootstrap.

La mejor fuente única sobre este tema general que he encontrado es el Capítulo 7 Evaluación y selección de modelos del excelente tratado Elementos de aprendizaje estadístico de Hastie, Tibshirani y Friedman. Este libro está disponible para su descarga gratuita desde la página principal del libro.

Estoy tratando de realizar la validación cruzada de dejar uno fuera para modelar un problema en particular usando Back Propagation Neural Network. Tengo 8 características en mis datos de entrenamiento y 20 instancias. Estoy tratando de hacer que el NN aprenda una función en la construcción de un modelo de predicción. Ahora, el problema es que la tasa de error es bastante alta en la predicción. Mi suposición es que el número de instancias en la capacitación es menor en comparación con la cantidad de características consideradas. Es esta conclusión correcta. ¿Hay alguna relación óptima de característica a instancia?