deep-learning - fourier - filtros espaciales procesamiento de imagenes

Capa de agrupación máxima vs convolución con rendimiento de zancada (1)

Sí que se puede hacer. Se explica en el documento ''Striving for simplicity: The all convolutional net'' https://arxiv.org/pdf/1412.6806.pdf . Cita del papel:

"Encontramos que la agrupación máxima puede reemplazarse simplemente por una capa convolucional con mayor zancada sin pérdida de precisión en varios puntos de referencia de reconocimiento de imagen"

En la mayoría de las arquitecturas, las capas de conv son seguidas por una capa de agrupación (max / avg, etc.). Dado que esas capas de agrupación simplemente están seleccionando la salida de la capa anterior (es decir, conv), ¿podemos simplemente usar la convolución con el paso 2 y esperar resultados de precisión similares con una necesidad de proceso reducida?