Transformación de perspectiva

Cuando los ojos humanos ven cosas cercanas, se ven más grandes en comparación con las que están lejos. A esto se le llama perspectiva de manera general. Mientras que la transformación es la transferencia de un objeto, etc. de un estado a otro.

Entonces, en general, la transformación de la perspectiva se ocupa de la conversión del mundo 3D en una imagen 2D. El mismo principio sobre el que funciona la visión humana y el mismo principio sobre el que funciona la cámara.

Veremos en detalle por qué sucede esto, que esos objetos que están cerca de ti se ven más grandes, mientras que los que están lejos, se ven más pequeños aunque se vean más grandes cuando los alcanzas.

Comenzaremos esta discusión por el concepto de marco de referencia:

Marco de referencia:

El marco de referencia es básicamente un conjunto de valores en relación con los cuales medimos algo.

5 marcos de referencia

Para analizar un mundo / imagen / escena en 3D, se requieren 5 marcos de referencia diferentes.

  • Object
  • World
  • Camera
  • Image
  • Pixel

Marco de coordenadas de objeto

El marco de coordenadas de objeto se utiliza para modelar objetos. Por ejemplo, comprobar si un objeto en particular está en un lugar adecuado con respecto al otro objeto. Es un sistema de coordenadas 3D.

Marco de coordenadas mundial

El marco de coordenadas mundiales se utiliza para co-relacionar objetos en un mundo tridimensional. Es un sistema de coordenadas 3D.

Marco de coordenadas de la cámara

El marco de coordenadas de la cámara se utiliza para relacionar objetos con respecto a la cámara. Es un sistema de coordenadas 3D.

Marco de coordenadas de imagen

No es un sistema de coordenadas 3D, más bien es un sistema 2D. Se utiliza para describir cómo se mapean los puntos 3D en un plano de imagen 2D.

Marco de coordenadas de píxeles

También es un sistema de coordenadas 2D. Cada píxel tiene un valor de coordenadas de píxel.

Transformación entre estos 5 fotogramas

Así es como una escena 3d se transforma en 2d, con imagen de píxeles.

Ahora explicaremos este concepto matemáticamente.

Dónde

Y = objeto 3d

y = Imagen 2d

f = distancia focal de la cámara

Z = distancia entre el objeto y la cámara

Ahora, hay dos ángulos diferentes formados en esta transformada que están representados por Q.

El primer ángulo es

Donde menos denota que la imagen está invertida. El segundo ángulo que se forma es:

Comparando estas dos ecuaciones obtenemos

A partir de esta ecuación, podemos ver que cuando los rayos de luz se reflejan después de golpear desde el objeto, pasado desde la cámara, se forma una imagen invertida.

Podemos entender mejor esto con este ejemplo.

Por ejemplo

Calcular el tamaño de la imagen formada

Supongamos que se ha tomado una imagen de una persona de 5 m de altura, y que está parada a una distancia de 50 m de la cámara, y tenemos que decir que cuál es el tamaño de la imagen de la persona, con una cámara de distancia focal de 50 mm.

Solución:

Dado que la distancia focal está en milímetros, tenemos que convertir todo en milímetros para calcularlo.

Entonces,

Y = 5000 mm.

f = 50 mm.

Z = 50000 mm.

Poniendo los valores en la fórmula, obtenemos

= -5 mm.

Nuevamente, el signo menos indica que la imagen está invertida.