visión seguimiento objetos detección con artificial machine-learning computer-vision detection metrics vision

machine-learning - seguimiento - vision artificial simulink



métrica mAP en detección de objetos y visión por computadora (5)

En la visión por computadora y la detección de objetos, el método de evaluación común es mAP. ¿Qué es y cómo se calcula?


Para la detección, una forma común de determinar si la propuesta de un objeto era correcta es Intersección sobre Unión (IoU, IU). Esto toma el conjunto A de píxeles de objetos propuestos y el conjunto de píxeles verdaderos de objetos B y calcula:

Comúnmente, IoU> 0.5 significa que fue un éxito, de lo contrario fue un fracaso. Para cada clase, uno puede calcular el

  • TP positivo verdadero (c): se hizo una propuesta para la clase c y en realidad había un objeto de la clase c
  • Falso Positivo FP (c): se hizo una propuesta para la clase c, pero no hay ningún objeto de la clase c
  • Precisión media para la clase c:

El mAP (precisión promedio promedio) es entonces:

Nota: Si se desean mejores propuestas, se aumenta el IoU de 0.5 a un valor más alto (hasta 1.0, lo cual sería perfecto). Se puede denotar esto con mAP @ p, donde p / in (0, 1) es la IoU.

mAP@[.5:.95] significa que el mAP se calcula sobre múltiples umbrales y luego se promedia nuevamente

Editar: para obtener información más detallada, consulte las métricas de evaluación de COCO


Creo que la parte importante aquí es vincular cómo la detección de objetos se puede considerar igual que los problemas estándar de recuperación de información para los que existe al menos una excelente descripción de precisión promedio .

La salida de algún algoritmo de detección de objetos es un conjunto de cuadros delimitadores propuestos, y para cada uno, un puntaje de confianza y clasificación (un puntaje por clase). Ignoremos los puntajes de clasificación por ahora, y usemos la confianza como entrada para una clasificación binaria umbral . Intuitivamente, la precisión promedio es una agregación sobre todas las opciones para el umbral / valor de corte. Pero espera; Para calcular la precisión, ¡necesitamos saber si una caja es correcta!

Aquí es donde se vuelve confuso / difícil; a diferencia de los problemas típicos de recuperación de información, en realidad tenemos un nivel adicional de clasificación aquí. Es decir, no podemos hacer coincidencias exactas entre los cuadros, por lo que debemos clasificar si un cuadro delimitador es correcto o no. La solución es esencialmente hacer una clasificación codificada en las dimensiones de la caja; comprobamos si se superpone lo suficiente con cualquier verdad fundamental para que se considere "correcta". El umbral para esta parte es elegido por el sentido común. El conjunto de datos en el que está trabajando probablemente definirá cuál es este umbral para un cuadro delimitador ''correcto''. La mayoría de los conjuntos de datos simplemente lo establecen en 0.5 IoU y lo dejan así (recomiendo hacer algunos cálculos manuales de IoU [no son difíciles] para tener una idea de cuán estricto es el IoU de 0.5 en realidad).

Ahora que hemos definido lo que significa ser "correcto", podemos usar el mismo proceso que la recuperación de información.

Para encontrar la precisión promedio promedio (mAP), simplemente estratifique sus cuadros propuestos en función del máximo de los puntajes de clasificación asociados con esos cuadros, luego promedie (tome la media) de la precisión promedio (AP) sobre las clases.

TLDR; haga la distinción entre determinar si una predicción de cuadro delimitador es ''correcta'' (nivel adicional de clasificación) y evaluar qué tan bien la confianza del cuadro le informa de una predicción de cuadro delimitador ''correcta'' (completamente análoga al caso de recuperación de información) y las descripciones típicas de mAP tendrá sentido.

Vale la pena señalar que el Área bajo la curva de Precisión / Recuperación es lo mismo que la precisión promedio , y esencialmente estamos aproximando esta área con la regla trapezoidal o de la mano derecha para aproximar integrales.


Definición: mAP → precisión media promedio

En la mayoría de los concursos de detección de objetos, hay muchas categorías para detectar, y la evaluación del modelo se realiza en una categoría específica cada vez, el resultado de la evaluación es el AP de esa categoría.

Cuando se evalúa cada categoría, la media de todos los AP se calcula como el resultado final del modelo, que es mAP.


Las citas son del documento de Zisserman mencionado anteriormente - 4.2 Evaluación de resultados (Página 11) :

Primero, un "criterio de superposición" se define como una intersección sobre unión mayor que 0.5. (por ejemplo, si un cuadro predicho cumple este criterio con respecto a un cuadro de verdad fundamental, se considera una detección). Luego se hace una correspondencia entre las cajas GT y las cajas predichas utilizando este enfoque "codicioso":

Las detecciones producidas por un método se asignaron a objetos de verdad fundamental que satisfacen el criterio de superposición en orden ordenado por la salida de confianza (decreciente). Las detecciones múltiples del mismo objeto en una imagen se consideraron detecciones falsas, por ejemplo, 5 detecciones de un solo objeto contadas como 1 detección correcta y 4 detecciones falsas

Por lo tanto, cada cuadro predicho es verdadero positivo o falso positivo. Cada cuadro de verdad fundamental es Verdadero-Positivo. No hay verdaderos negativos.

Luego, la precisión promedio se calcula promediando los valores de precisión en la curva de recuperación de precisión donde la recuperación está en el rango [0, 0.1, ..., 1] (por ejemplo, promedio de 11 valores de precisión). Para ser más precisos, consideramos una curva PR ligeramente corregida, donde para cada punto de curva (p, r), si hay un punto de curva diferente (p '', r'') tal que p ''> p y r''> = r , reemplazamos p con el máximo p ''de esos puntos.

Lo que aún no me queda claro es qué se hace con esas cajas de GT que nunca se detectan (incluso si la confianza es 0). Esto significa que hay ciertos valores de recuperación que la curva de recuperación de precisión nunca alcanzará, y esto hace que el cálculo de precisión promedio sea indefinido.

Editar:

Respuesta corta: en la región donde no se puede acceder a la recuperación, la precisión cae a 0.

Una forma de explicar esto es asumir que cuando el umbral para la confianza se acerca a 0, un número infinito de cuadros delimitadores predichos se iluminan por toda la imagen. La precisión luego va inmediatamente a 0 (ya que solo hay un número finito de cajas GT) y el retiro sigue creciendo en esta curva plana hasta llegar al 100%.


mAP es la precisión media promedio.

Su uso es diferente en el campo de la recuperación de información (referencia [1] [2] ) y la configuración de clasificación de múltiples clases (detección de objetos).

Para calcularlo para la detección de objetos, calcula la precisión promedio para cada clase en sus datos en función de las predicciones de su modelo. La precisión promedio está relacionada con el área bajo la curva de recuperación de precisión para una clase. Luego, tomar la media de estas medias de precisión de clase individual le da la precisión media promedio.

Para calcular la precisión promedio, vea [3]