algorithm - ver - tags para videos de youtube

Encontrar un marco interesante en un video (7)

Creo que solo deberías ver los cuadros clave.

Si el video no está codificado utilizando una compresión que se basa en fotogramas clave, debe crear un algoritmo basado en el siguiente artículo: Selección de fotograma clave por análisis de movimiento .

Dependiendo de la compresión del video, puede tener fotogramas clave cada 2 segundos o 30 segundos. De lo que creo que debería usar el algoritmo en el artículo para encontrar el fotograma clave "más" de todos los fotogramas clave.

¿Alguien sabe de un algoritmo que podría utilizar para encontrar una miniatura representativa "interesante" para un video?

Tengo 30 mapas de bits y me gustaría elegir el más representativo como la miniatura del video.

El primer paso obvio sería eliminar todos los marcos negros. Luego, tal vez busque la "distancia" entre los diversos marcos y elija algo que esté cerca de la media.

¿Alguna idea aquí o artículos publicados que podrían ayudar?

Los directores a veces se quedarán en un plano particularmente "interesante" o hermoso, así que ¿qué hay de encontrar una sección de 5 segundos que no cambie y luego eliminar esas secciones que son casi negras?

Recientemente trabajé en un proyecto en el que realizamos algunos procesamientos de video, y utilizamos OpenCV para realizar trabajos pesados en lo que respecta al procesamiento de video. Tuvimos que extraer marcos, calcular diferencias, extraer rostros, etc. OpenCV tiene algunos algoritmos integrados que calcularán las diferencias entre marcos. Funciona con una variedad de formatos de video e imagen.

Si el video contiene estructura, es decir, varias tomas, entonces las técnicas estándar para el resumen del video implican (a) la detección de disparos, luego (b) use el primer, medio o enésimo fotograma para representar cada toma. Ver [1].

Sin embargo, supongamos que desea encontrar un marco interesante en un solo flujo continuo de fotogramas tomados de una única fuente de cámara. Es decir, un disparo. Este es el problema de "detección de cuadro clave" que se discute ampliamente en los textos IR / CV (recuperación de información, visión por computadora). Algunos enfoques ilustrativos:

En [2] se calcula un histograma de color medio para todos los fotogramas y el fotograma clave es el histograma más cercano. Es decir, seleccionamos el mejor marco en términos de su distribución de color.
En [3], asumimos que la quietud de la cámara es un indicador de la importancia del cuadro. Según lo sugerido por Camas, arriba. Escogemos los cuadros fijos usando flujo óptico y usamos eso.
En [4] cada fotograma se proyecta en un espacio de contenido de alta dimensión, encontramos esos fotogramas en las esquinas del espacio y los usamos para representar el video.
En [5] se evalúa la importancia de los fotogramas utilizando su longitud y novedad en el espacio de contenido.

En general, este es un campo grande y hay muchos enfoques. Puede consultar las conferencias académicas, como la Conferencia Internacional de Recuperación de Imágenes y Video (CIVR) para obtener las últimas ideas. Encuentro que [6] presenta un resumen detallado útil de la abstracción de video (detección y sumarización de fotogramas clave).

Para su problema de "encontrar el mejor de 30 bitmaps" usaría un enfoque como [2]. Calcule un espacio de representación de marcos (por ejemplo, un histograma de colores para el marco), calcule un histograma para representar todos los marcos y utilice el marco con la distancia mínima entre los dos (por ejemplo, elija una medida de distancia que sea mejor para su espacio. Distancia del motor).

MS Lew. Principios de recuperación de información visual. Springer Verlag, 2001.
B. Gunsel, Y. Fu y AM Tekalp. Segmentación jerárquica de video temporal y caracterización de contenido. Sistemas de archivo y almacenamiento multimedia II, SPIE, 3229: 46-55, 1997.
W. Wolf. Selección de cuadro clave por análisis de movimiento. En la Conferencia Internacional de IEEE sobre Acústica, Habla y Procesamiento de Señales, páginas 1228-1231, 1996.
L. Zhao, W. Qi, SZ Li, SQ Yang y HJ Zhang. Extracción de cuadro clave y recuperación de disparo utilizando la línea de característica más cercana. En IW-MIR, ACM MM, páginas 217-220, 2000.
S. Uchihashi. Video Manga: generación de resúmenes de video semánticamente significativos. En Proc. ACM Multimedia 99, Orlando, FL, noviembre, páginas 383-292, 1999.
Y. Li, T. Zhang y D. Tretter. Una visión general de las técnicas de abstracción de video. Informe técnico, HP Laboratory, julio de 2001.

También puede ser beneficioso favorecer marcos que sean estéticamente agradables. Es decir, busque los atributos comunes de la fotografía: relación de aspecto, contraste, equilibrio, etc.

Sería difícil encontrar un plano representativo si no sabes lo que estás buscando. Pero con algo de heurística y mi sugerencia, al menos podrías encontrar algo atractivo.

Usted pidió documentos, así que encontré algunos. Si no estás en el campus o en una conexión de VPN con el campus, es posible que estos documentos sean difíciles de alcanzar.

PanoramaExcerpts: extracción y empaque de panoramas para la navegación de videos

http://portal.acm.org/citation.cfm?id=266396

Éste explica un método para generar una representación de fotogramas de estilo de cómic.

Abstracto:

Este artículo presenta métodos para crear automáticamente resúmenes de video pictóricos que se parecen a los cómics. La importancia relativa de los segmentos de video se calcula a partir de su longitud y novedad. El análisis de imagen y audio se usa para detectar automáticamente y enfatizar eventos significativos. En base a esta medida de importancia, elegimos fotogramas clave relevantes. Los fotogramas clave seleccionados se clasifican por importancia y luego se empacan de manera eficiente en un resumen ilustrado. Presentamos una medida cuantitativa de qué tan bien un resumen captura los eventos destacados en un video y cómo se puede utilizar para mejorar nuestros resúmenes. El resultado es un resumen compacto y agradable a la vista que captura eventos semánticamente importantes y es adecuado para imprimir o acceder a la Web. Dicho resumen puede mejorarse aún más incluyendo títulos de texto derivados de OCR u otros métodos. Describimos cómo se utilizan los resúmenes generados automáticamente para simplificar el acceso a una gran colección de videos.

Extracción automática de fotogramas clave representativos en función del contenido de la escena

http://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=751008

Abstracto:

Generar índices para películas es un proceso tedioso y costoso que buscamos automatizar. Si bien los algoritmos para encontrar los límites de las escenas están fácilmente disponibles, se ha realizado poco trabajo al seleccionar cuadros individuales para representar de forma concisa la escena. En este artículo presentamos nuevos algoritmos para la selección automática de fotogramas clave representativos, basados en el contenido de la escena. La descripción detallada de varios algoritmos va seguida de un análisis de cuán bien los humanos sienten que los cuadros seleccionados representan la escena. Finalmente abordamos cómo estos algoritmos se pueden integrar con los algoritmos existentes para encontrar los límites de la escena.

Wow, qué gran pregunta, supongo que un segundo paso sería eliminar iterativamente cuadros donde hay poco o ningún cambio entre él y sus sucesores. Pero lo único que estás haciendo allí es reducir el conjunto de fotogramas potencialmente interesantes. La forma exacta en que determinas el "interés" es la salsa especial, supongo, ya que no tienes las estadísticas de interacción del usuario en las que puedes confiar como lo hace Flickr.