image-processing computer-vision terminology object-detection image-segmentation semantic-segmentation

image processing - ¿Qué es la "segmentación semántica" en comparación con la "segmentación" y el "etiquetado de escenas"?



image-processing computer-vision (3)

Las respuestas anteriores son realmente geniales, me gustaría señalar algunas adiciones más:

Segmentación de objetos

Una de las razones por las que esto ha caído en desgracia en la comunidad de investigación es porque es problemáticamente vago. La segmentación de objetos solía significar simplemente encontrar un número único o pequeño de objetos en una imagen y dibujar un límite alrededor de ellos, y para la mayoría de los propósitos, aún puede suponer que significa esto. Sin embargo, también comenzó a usarse para significar la segmentación de manchas que podrían ser objetos, la segmentación de objetos del fondo (más comúnmente ahora llamada sustracción de fondo o segmentación de fondo o detección de primer plano), e incluso en algunos casos se usa indistintamente con el reconocimiento de objetos usando cuadros delimitadores (esto se detuvo rápidamente con el advenimiento de los enfoques de redes neuronales profundas para el reconocimiento de objetos, pero de antemano el reconocimiento de objetos también podría significar simplemente etiquetar una imagen completa con el objeto en él)

¿Qué hace que la "segmentación" sea "semántica"?

Simpy, cada segmento, o en el caso de métodos profundos, cada píxel, recibe una etiqueta de clase basada en una categoría. La segmentación en general es solo la división de la imagen por alguna regla. Meanshift segmentación de cambio de Meanshift , por ejemplo, desde un nivel muy alto divide los datos de acuerdo con los cambios en la energía de la imagen. La segmentación basada en corte de gráfico tampoco se aprende, sino que se deriva directamente de las propiedades de cada imagen por separado del resto. Los métodos más recientes (basados ​​en redes neuronales) usan píxeles que están etiquetados para aprender a identificar las características locales que están asociadas con clases específicas, y luego clasifican cada píxel en función de qué clase tiene la mayor confianza para ese píxel. De esta manera, "etiquetado de píxeles" es en realidad un nombre más honesto para la tarea, y el componente de "segmentación" es emergente.

Segmentación de instancia

Posiblemente el significado más difícil, relevante y original de la segmentación de objetos, "segmentación de instancia" significa la segmentación de los objetos individuales dentro de una escena, independientemente de si son del mismo tipo. Sin embargo, una de las razones por las que esto es tan difícil es porque desde una perspectiva de visión (y de alguna manera filosófica) lo que hace que una instancia de "objeto" no esté del todo clara. ¿Son las partes del cuerpo objetos? ¿Deberían tales "objetos parciales" estar segmentados en absoluto por un algoritmo de segmentación de instancia? ¿Deberían segmentarse solo si se ven separados del todo? ¿Qué pasa con los objetos compuestos si dos cosas claramente contiguas pero separables pueden ser uno o dos objetos (es una roca pegada a la parte superior de un palo un hacha, un martillo, o simplemente un palo y una roca a menos que estén hechos correctamente?). Además, no está claro cómo distinguir las instancias. ¿Es un testamento una instancia separada de las otras paredes a las que está unido? ¿En qué orden deben contarse las instancias? Como aparecen? ¿Proximidad al punto de vista? A pesar de estas dificultades, la segmentación de los objetos sigue siendo un gran problema porque, como humanos, interactuamos con los objetos todo el tiempo, independientemente de su "etiqueta de clase" (usando objetos aleatorios a su alrededor como pesas de papel, sentados en cosas que no son sillas), y algunos conjuntos de datos intentan llegar a este problema, pero la razón principal por la que todavía no se le presta mucha atención al problema es porque no está lo suficientemente bien definido.

Análisis de escenas / etiquetado de escenas

El análisis de escenas es el enfoque estrictamente de segmentación para el etiquetado de escenas, que también tiene algunos problemas de vaguedad propios. Históricamente, el etiquetado de escenas significaba dividir toda la "escena" (imagen) en segmentos y darles a todos una etiqueta de clase. Sin embargo, también se utilizó para dar etiquetas de clase a áreas de la imagen sin segmentarlas explícitamente. Con respecto a la segmentación, la "segmentación semántica" no implica dividir toda la escena. Para la segmentación semántica, el algoritmo está destinado a segmentar solo los objetos que conoce, y será penalizado por su función de pérdida para etiquetar píxeles que no tienen ninguna etiqueta. Por ejemplo, el conjunto de datos MS-COCO es un conjunto de datos para la segmentación semántica donde solo se segmentan algunos objetos.

¿La segmentación semántica es solo un pleonasma o hay una diferencia entre "segmentación semántica" y "segmentación"? ¿Hay alguna diferencia entre "etiquetado de escena" o "análisis de escena"?

¿Cuál es la diferencia entre el nivel de píxel y la segmentación por píxel?

(Pregunta secundaria: cuando tienes este tipo de anotación en píxeles, ¿obtienes detección de objetos gratis o todavía hay algo que hacer?)

Por favor, proporcione una fuente para sus definiciones.

Fuentes que usan "segmentación semántica"

Fuentes que usan "etiquetado de escenas"

Fuente que utiliza "nivel de píxel"

  • Pinheiro, Pedro O. y Ronan Collobert: "Del etiquetado a nivel de imagen a nivel de píxel con redes convolucionales". Actas de la Conferencia IEEE sobre Visión por Computadora y Reconocimiento de Patrones, 2015. (ver http://arxiv.org/abs/1411.6228 )

Fuente que usa "pixelwise"

  • Li, Hongsheng, Rui Zhao y Xiaogang Wang: "Propagación altamente eficiente hacia adelante y hacia atrás de redes neuronales convolucionales para la clasificación por píxeles". preimpresión de arXiv arXiv: 1412.4526 , 2014.

Google Ngrams

La "segmentación semántica" parece ser más utilizada recientemente que el "etiquetado de escenas"


Leí muchos artículos sobre detección de objetos, reconocimiento de objetos, segmentación de objetos, segmentación de imágenes y segmentación semántica de imágenes, y aquí están mis conclusiones que podrían no ser ciertas:

Reconocimiento de objetos: en una imagen determinada, debe detectar todos los objetos (una clase restringida de objetos depende de su conjunto de datos), localizarlos con un cuadro delimitador y etiquetar ese cuadro delimitador con una etiqueta. En la imagen de abajo verá una salida simple de un reconocimiento de objetos de última generación.

Detección de objetos: es como el reconocimiento de objetos, pero en esta tarea solo tiene dos clases de clasificación de objetos, lo que significa cuadros delimitadores de objetos y cuadros delimitadores sin objetos. Por ejemplo, detección de automóviles: debe detectar todos los automóviles en una imagen determinada con sus cuadros delimitadores.

Segmentación de objetos: al igual que el reconocimiento de objetos, reconocerá todos los objetos en una imagen, pero su salida debe mostrar este objeto clasificando los píxeles de la imagen.

Segmentación de imagen: en la segmentación de imagen segmentará regiones de la imagen. su salida no etiquetará los segmentos y la región de una imagen que deben ser coherentes entre sí en el mismo segmento. Extraer superpíxeles de una imagen es un ejemplo de esta tarea o segmentación de primer plano y fondo.

Segmentación semántica: en la segmentación semántica, debe etiquetar cada píxel con una clase de objetos (Automóvil, Persona, Perro, ...) y no objetos (Agua, Cielo, Carretera, ...). En otras palabras, en Segmentación semántica, etiquetará cada región de la imagen.

Creo que el etiquetado a nivel de píxel y píxel es básicamente el mismo que podría ser la segmentación de imágenes o la segmentación semántica. También he respondido su pregunta en este enlace de la misma manera.


La "segmentación" es una partición de una imagen en varias partes "coherentes", pero sin ningún intento de comprender lo que representan estas partes. Una de las obras más famosas (pero definitivamente no la primera) es Shi y Malik "Normalized Cuts and Image Segmentation" PAMI 2000 . Estos trabajos intentan definir la "coherencia" en términos de señales de bajo nivel como el color, la textura y la suavidad de los límites. Puede rastrear estos trabajos hasta la teoría de la Gestalt .

Por otro lado, la "segmentación semántica" intenta dividir la imagen en partes semánticamente significativas y clasificar cada parte en una de las clases predeterminadas. También puede lograr el mismo objetivo clasificando cada píxel (en lugar de la imagen / segmento completo). En ese caso, está haciendo una clasificación en píxeles, lo que conduce al mismo resultado final pero en una ruta ligeramente diferente ...

Entonces, supongo que se puede decir que la "segmentación semántica", el "etiquetado de escenas" y la "clasificación por píxeles" básicamente están tratando de lograr el mismo objetivo: comprender semánticamente el papel de cada píxel en la imagen. Puede tomar muchos caminos para alcanzar ese objetivo, y estos caminos conducen a pequeños matices en la terminología.