tipos redes recurrente neuronales neuronal las inteligencia funcion ejemplos definicion computacion artificiales artificial machine-learning computer-vision neural-network deep-learning conv-neural-network

machine learning - recurrente - ¿Por qué las redes neuronales invariantes de rotación no se usan en los ganadores de las competiciones populares?



redes neuronales ejemplos (4)

Como se conoce, la CNN más popular (red neuronal convolucional): VGG / ResNet (FasterRCNN), SSD, Yolo, Yolo v2, DenseBox, DetectNet: no son invariantes de rotación: ¿La CNN moderna (red neuronal convolucional) es invariante de rotación DetectNet?

También se sabe, que hay varias redes neuronales con detección de objetos de invarianza de rotación:

  1. Rotación-invariante Neoperceptron 2006 ( PDF ): https://www.researchgate.net/publication/224649475_Rotation-Invariant_Neoperceptron

  2. Filtros convolucionales invariantes de rotación para la clasificación de texturas 2016 ( PDF ): https://arxiv.org/abs/1604.06720

  3. RIFD-CNN: Redes neuronales convolucionales discriminatorias e invariantes de rotación para la detección de objetos 2016 ( PDF ): http://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Cheng_RIFD-CNN_Rotation-Invariant_and_CVPR_2016_paper.html

  4. Invarianza codificada en redes neuronales convolucionales 2014 ( PDF )

  5. Redes neuronales convariantes invariables a la rotación para la predicción de la morfología de las galaxias ( PDF ): https://arxiv.org/abs/1503.07077

  6. Aprendizaje de redes neuronales convolucionales de rotación invariante para la detección de objetos en imágenes de teledetección óptica VHR 2016: http://ieeexplore.ieee.org/document/7560644/

Sabemos, que en competiciones de detección de imágenes como: IMAGE-NET, MSCOCO, PASCAL VOC - usamos conjuntos de redes (simultáneamente algunas redes neuronales). O conjuntos de redes en una sola red como ResNet ( redes residuales que se comportan como conjuntos de redes relativamente poco profundas )

Pero se usan conjuntos invariables de rotación en los ganadores como MSRA, y si no, ¿por qué? ¿Por qué, en conjunto, la red invariante de rotación adicional no agrega precisión para detectar ciertos objetos, como objetos de aviones, qué imágenes se realizan en ángulos de rotación diferentes?

Puede ser:

  • Objetos de aviones que son fotografiados desde el suelo.

  • u objetos de tierra que son fotografiados desde el aire

¿Por qué las redes neuronales invariantes de rotación no se usan en los ganadores de las populares competiciones de detección de objetos?


De hecho, la característica invariante de rotación es muy útil para la detección de objetos en imágenes aéreas. Por ejemplo, el nuevo algoritmo RoI Transformer en DOTA .


El progreso reciente en el reconocimiento de imágenes que se realizó principalmente al cambiar el enfoque de una selección de características clásica (algoritmo de aprendizaje superficial a no selección de feture), el algoritmo de aprendizaje profundo no solo fue causado por las propiedades matemáticas de las redes neuronales convolucionales. Sí, por supuesto, su capacidad para capturar la misma información usando un número menor de parámetros fue parcialmente causada por su propiedad de invariancia de cambio, pero la research reciente ha demostrado que esto no es una clave para comprender su éxito.

En mi opinión, la razón principal detrás de este éxito fue el desarrollo de algoritmos de aprendizaje más rápidos que los matemáticamente más precisos y es por eso que se pone menos atención en el desarrollo de redes neuronales invariantes de otra propiedad .

Por supuesto, la invariancia de rotación no se omite en absoluto. Esto se hace parcialmente mediante el aumento de datos en el que coloca la imagen ligeramente modificada (por ejemplo, girada o reescalada) en su conjunto de datos, con la misma etiqueta. Como podemos leer en este fantástico libro, estos dos enfoques ( más estructura frente a menos estructura + aumento de datos ) son más o menos equivalentes.


La detección de objetos se basa principalmente en el éxito de los algoritmos de detección en puntos de referencia de detección de objetos de fama mundial como PASCAL-VOC y MS-COCO, que son conjuntos de datos centrados en objetos donde la mayoría de los objetos son verticales (plantas en macetas, humanos, caballos, etc.) y, por lo tanto, el aumento de datos con giros de izquierda a derecha suele ser suficiente (por lo que sabemos, el aumento de datos con imágenes rotadas, como giros al revés, incluso puede afectar el rendimiento de detección).
Cada año, toda la comunidad adopta la estructura algorítmica base de la solución ganadora y se basa en ella (estoy exagerando un poco para demostrar un punto, pero no tanto).

Es interesante que otros temas menos conocidos, como las detecciones de texto orientado y la detección de vehículo orientado en imágenes aéreas, necesitan características invariantes de rotación y tuberías de detección equivalentes a la rotación (como en los dos artículos de Cheng que mencionó).

Si desea encontrar literatura y código en esta área, necesita sumergirse en estos dos dominios. Ya puedo darte algunos consejos como el desafío DOTA para imágenes aéreas o los desafíos ICDAR para detecciones de texto orientado.

Como dijo @Marcin Mozejko, la CNN es, por naturaleza, invariante en la traducción y no invariable en la rotación. Es un problema abierto cómo incorporar la invarianza de rotación perfecta; los pocos artículos que se ocupan de ella aún no se han convertido en estándares, aunque some de ellos parecen ser prometedores. Mi favorito personal para la detección es la modificación de Faster R-CNN recientemente propuesta por Ma .

Espero que esta dirección de investigación se investigue más y más una vez que la gente se hartará de MS-COCO y VOC.

Lo que podría intentar es tomar un detector de vanguardia capacitado en MS-COCO como Faster R-CNN con NASNet de la API de detección de TF y ver cómo realiza la rotación de la imagen de prueba, en mi opinión, estaría muy lejos de Rotación invariante.


También me pregunto por qué la comunidad o el académico no prestó mucha atención a la invasión de raciones de CNN como @Alex.

Una posible causa, en mi opinión, es que muchos escenarios no necesitan esta propiedad, especialmente para las competiciones populares. Como mencionó Rob, algunas imágenes naturales ya están tomadas de forma horizontal (o vertical) unificada. Por ejemplo, en la detección de rostros, muchos trabajos alinearán la imagen para garantizar que las personas se paren en la tierra antes de alimentar a cualquier modelo de CNN. Para ser honesto, esta es la forma más barata y eficiente para esta tarea en particular.

Sin embargo, existen algunos escenarios en la vida real, que necesitan propiedades invariantes de rotación. Entonces llego a otra conjetura: este problema no es difícil desde el punto de vista de los expertos (o investigadores). Al menos podemos usar el aumento de datos para obtener algunos invariantes de rotación.

Por último, muchas gracias por su resumen sobre los documentos. Agregué un artículo más, Group Equivariant Convolutional Networks_icml2016_GCNN y su implementación en github por parte de otras personas.