started - Cuantización de Tensorflow

tensorflow sdk (1)

Parece que la cuantización en Tensorflow solo ocurre en las CPU. Ver: https://github.com/tensorflow/tensorflow/issues/2807

Me gustaría optimizar un gráfico usando la herramienta transform_graph de Tensorflow. Intenté optimizar el gráfico de MultiNet (y otros con arquitecturas codificadoras-decodificadoras similares). Sin embargo, el gráfico optimizado es en realidad más lento cuando se usan quantize_weights, e incluso mucho más lento cuando se usan quantize_nodes. De la documentación de Tensorflow, puede haber mejoras, o incluso puede ser más lento, al cuantificar. ¿Alguna idea de si esto es normal con el gráfico / software / hardware a continuación?

Aquí está la información de mi sistema para su referencia:

Plataforma y distribución de sistema operativo: Linux Ubuntu 16.04
TensorFlow instalado desde: utilizando el código fuente de TF (CPU) para la conversión de gráficos, utilizando binary-python (GPU) para la inferencia
Versión de TensorFlow: ambas usando r1.3
Versión de Python: 2.7
Versión de Bazel: 0.6.1
Versión CUDA / cuDNN: 8.0 / 6.0 (solo inferencia)
Modelo y memoria GPU: GeForce GTX 1080 Ti

Puedo publicar todos los scripts utilizados para reproducirlos si es necesario.