tensorflow video analysis

¿Cómo transfiere las características de video de una CNN a una LSTM? (1)

Básicamente, puede aplanar las características de cada cuadro y alimentarlas en una celda LSTM. Con CNN, es lo mismo. Puede alimentar cada salida de CNN en una celda LSTM.

Para FC, depende de ti.

Vea una estructura de red en http://www.eecs.berkeley.edu/Pubs/TechRpts/2014/EECS-2014-180.pdf .

Después de pasar un cuadro de video a través de un convnet y obtener un mapa de características de salida, ¿cómo transfiere esos datos a un LSTM? Además, ¿cómo se pasan múltiples marcos al LSTM a través de la CNN?
En otros trabajos, quiero procesar marcos de video con una CNN para obtener las características espaciales. Entonces quiero pasar estas características a un LSTM para hacer un procesamiento temporal de las características espaciales. ¿Cómo conecto el LSTM a las funciones de video? Por ejemplo, si el video de entrada es de 56x56 y luego cuando pasa a través de todas las capas de CNN, digamos que sale como 20: 5x5. ¿Cómo se conectan estos a LSTM marco por cuadro? ¿Y deben pasar primero por una capa completamente conectada? Gracias, Jon