with recognition neural networks learning convolutional and algorithm opencv machine-learning computer-vision classification

algorithm - recognition - ¿Consejos a considerar al entrenar un clasificador de cascada robusto?



opencv image recognition (1)

  • 4000 pos - 800 neg es una mala relación. La cuestión con las muestras negativas es que debe entrenar a su sistema tantas veces como sea posible, ya que el algoritmo Adaboost ML, el algoritmo central para todos los procesos de selección de características similares, depende en gran medida de ellos. Usar 4000/10000 sería una buena mejora.
  • Detectar "animales" es un problema difícil. Como su problema es un proceso de decisión, que ya es NP-hard , está aumentando la complejidad con su rango de clasificación. Comience con los gatos primero. Tener un sistema que detecte gatos. Luego aplica lo mismo a los perros. Tenga, digamos 40 sistemas, detectando diferentes animales y utilícelos para su propósito más adelante.
  • Para el entrenamiento, no use objetos ocluidos como positivos. es decir, si desea detectar las caras frontales, entonces entrene las caras frontales con solo aplicar cambios de posición y orientación, sin incluir ningún otro objeto enfrente.
  • El downscaling no es importante ya que el clasificador de haar reduce las escalas a 24x24. Mira toda la presentación de viola-jones cuando tengas suficiente tiempo.
  • Buena suerte.

Estoy entrenando un clasificador en cascada para detectar animales en imágenes. Lamentablemente, mi tasa de falsos positivos es bastante alta (muy alta usando Haar y LBP, aceptable con HOG). Me pregunto cómo podría mejorar mi clasificador.

Aquí están mis preguntas:

  • ¿Cuál es la cantidad de muestras de entrenamiento que es necesaria para una detección robusta? He leído en alguna parte que se necesitan muestras de 4000 pos y 800 neg. ¿Es eso una buena estimación?
  • ¿Cuán diferente deberían ser las muestras de entrenamiento? ¿Hay alguna manera de cuantificar la diferencia de imagen para incluir / excluir posibles datos "duplicados"?
  • ¿cómo debo tratar con objetos ocluidos? ¿Debo entrenar solo la parte del animal que es visible, o debería elegir mi ROI para que el ROI promedio sea bastante constante?
  • objetos ocluidos: los animales tienen piernas, brazos, colas, cabezas, etc. Como algunas partes del cuerpo tienden a ocluirse con bastante frecuencia, ¿tiene sentido seleccionar el "torso" como el ROI?
  • ¿Debería intentar bajar la escala de mis imágenes y entrenar en tamaños de imágenes más pequeños? ¿Podría esto mejorar las cosas?

¡Estoy abierto para cualquier puntero aquí!