El nuevo modelo de Apple recrea objetos 3D con efectos de iluminación realistas


Los investigadores de Apple crearon un modelo de inteligencia artificial que reconstruye un objeto 3D a partir de una sola imagen, manteniendo al mismo tiempo la consistencia de las luces, los reflejos y otros efectos en diferentes ángulos de visión. Aquí están los detalles.

un poco de contexto

Aunque el concepto de espacio latente en el aprendizaje automático no es exactamente nuevo, se ha vuelto más popular que nunca en los últimos años, con la explosión de modelos de IA basados ​​en arquitectura transformadora y, más recientemente, modelos globales.

En pocas palabras (y a riesgo de ser ligeramente imprecisos al explicar el panorama completo), «espacio latente» o «espacio de integración» son términos que describen lo que sucede cuando:

  1. Reducir la información a representaciones digitales de sus conceptos;
  2. Organiza estos números en un espacio multidimensional, permitiendo calcular las distancias entre ellos para cada dimensión diferente.

Si esto todavía parece demasiado abstracto, un ejemplo clásico es obtener la representación matemática de la ficha «rey», restar la representación matemática de la ficha «hombre», agregar la representación matemática de la ficha «mujer» y terminará en la región multidimensional general de la ficha «reina».

En términos prácticos, almacenar información como representaciones matemáticas en un espacio latente hace que sea más rápido y computacionalmente más barato medir las distancias entre ellas y estimar la probabilidad de lo que debería generarse.

Aquí hay un video corto que explica el espacio latente usando una analogía diferente:

Aunque los ejemplos anteriores se centran en almacenar texto en espacio latente, la misma idea se puede aplicar a muchos otros tipos de datos. Lo que nos lleva al estudio de Apple.

LiTo: tokenización del campo luminoso de superficie

En el nuevo estudio de Apple, titulado LiTo: tokenización del campo luminoso de superficieLos investigadores «proponen una representación latente en 3D que modela conjuntamente la geometría del objeto y la apariencia dependiente de la vista».

En otras palabras, crearon una manera de representar, en el espacio latente, no sólo cómo reconstruir un objeto tridimensional, sino también cómo debería aparecer la luz que interactúa con él desde diferentes ángulos.

Según explican:

La mayoría de los trabajos anteriores se centran en reconstruir la geometría 3D o predecir la apariencia difusa independiente de la vista y, por lo tanto, tienen dificultades para capturar efectos realistas dependientes de la vista. Nuestro enfoque aprovecha el hecho de que las imágenes de profundidad RGB proporcionan muestras de un campo de luz superficial. Al codificar submuestras aleatorias de este campo de luz superficial en un conjunto compacto de vectores latentes, nuestro modelo aprende a representar tanto la geometría como la apariencia en un espacio latente 3D unificado. Esta representación reproduce efectos dependientes de la vista, como reflejos especulares y reflejos de Fresnel bajo una iluminación compleja.

Además, los investigadores lograron entrenar el modelo para que pudiera hacer todo esto a partir de una sola imagen, en lugar de utilizar los métodos más comunes que requieren imágenes desde diferentes ángulos para permitir la reconstrucción 3D.

Aunque todo el método es muy técnico y se explica en detalle en el estudio, la idea básica es en realidad relativamente simple, una vez que se comprende cómo funciona el espacio latente:

  • Primero, un codificador comprime la información del objeto en una representación compacta en el espacio latente. Entonces, en lugar de almacenar todos los detalles visibles, aprende una descripción matemática condensada de la forma del objeto y cómo interactúa la luz con su superficie.
  • Entonces un decodificador hace lo contrario. Reconstruye el objeto 3D completo a partir de esta representación compacta, generando tanto la geometría como la representación de cómo deberían aparecer los efectos de iluminación, como luces y reflejos, desde diferentes ángulos de visión.

entrenamiento LiTo

Para entrenar el modelo, los investigadores seleccionaron miles de objetos renderizados desde 150 ángulos de visión diferentes y 3 condiciones de iluminación.

Luego, en lugar de introducir toda esta información directamente en el modelo, el sistema seleccionó aleatoriamente pequeños subconjuntos de estas muestras y los comprimió en una representación latente cdse.

Luego, se entrenó al decodificador para reconstruir el objeto completo y su apariencia desde diferentes ángulos y condiciones de iluminación, a partir únicamente de este subconjunto de datos.

Durante el entrenamiento, el sistema aprendió una representación latente que capturaba tanto la geometría del objeto como cómo cambia su apariencia dependiendo de la dirección de observación.

Una vez hecho esto, entrenaron otro modelo que toma una única imagen de un objeto y predice la representación latente que le corresponde. Luego, el decodificador reconstruye el objeto 3D completo, incluido cómo cambia su apariencia según el ángulo de visión.

Aquí hay algunas comparaciones de reconstrucción entre LiTo y un modelo llamado TRELLIS, como publicó Apple en el pagina del proyecto:

Asegúrate de echa un vistazo a la página del proyectodonde también puede cargar comparaciones interactivas en paralelo entre LiTo y TRELLIS, como se muestra en la imagen que se muestra para este artículo.

Y para el estudio completo, sigue este enlace.

Para descubrir en Amazon

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.



Fuente