El nuevo modelo de código abierto de Apple convierte fotos 2D en vistas 3D


El modelo, llamado SHARP, puede reconstruir una escena 3D fotorrealista a partir de una sola imagen en menos de un segundo. A continuación se muestran algunos ejemplos.

SHARP es simplemente increíble

Apple publicó un estudio titulado Síntesis clara de visión monocular en menos de un segundo, en la que detalla cómo entrenó un modelo para reconstruir una escena 3D a partir de una única imagen 2D, manteniendo las distancias y la escala consistentes en términos reales.

Así es como los investigadores de Apple presentan el estudio:

Presentamos SHARP, un enfoque para sintetizar vistas fotorrealistas a partir de una sola imagen. Dada una sola fotografía, SHARP realiza una regresión de los parámetros de una representación gaussiana 3D de la escena representada. Esto se hace en menos de un segundo en una GPU estándar mediante un único paso de retroalimentación a través de una red neuronal. La representación gaussiana 3D producida por SHARP se puede renderizar en tiempo real, produciendo imágenes fotorrealistas de alta resolución para vistas de primer plano. La representación es métrica, absolutamente escalada, y admite movimientos de cámara métricos. Los resultados experimentales demuestran que SHARP proporciona una generalización sólida y sin complicaciones en conjuntos de datos. Establece un nuevo estado del arte en múltiples conjuntos de datos, reduciendo LPIPS entre un 25% y un 34% y DISTS entre un 21% y un 43% en comparación con el mejor modelo anterior, al tiempo que reduce el tiempo de síntesis en tres órdenes de magnitud.

En pocas palabras, el modelo predice una representación 3D de la escena, que puede representarse desde puntos de vista cercanos.

Un gaussiano 3D es esencialmente una pequeña y difusa masa de color y luz, ubicada en el espacio. Cuando se combinan millones de estas manchas, se puede recrear una escena 3D que parece precisa desde ese punto de vista específico.

Para crear este tipo de representación 3D, la mayoría de los enfoques de salpicaduras gaussianas requieren docenas o incluso cientos de imágenes de la misma escena, capturadas desde diferentes puntos de vista. El modelo SHARP de Apple, por otro lado, es capaz de predecir una representación completa de una escena gaussiana en 3D a partir de una sola fotografía en un solo paso a través de una red neuronal.

Para lograr esto, Apple entrenó a SHARP con grandes cantidades de datos sintéticos y reales, lo que le permitió aprender patrones comunes de profundidad y geometría en múltiples escenas.

Como resultado, cuando recibe una nueva fotografía, el modelo estima la profundidad, la refina usando lo que ha aprendido y luego predice la posición y apariencia de millones de gaussianos 3D en una sola pasada.

Esto permite a SHARP reconstruir una escena 3D plausible sin requerir múltiples fotogramas ni una optimización lenta por escena.

Sin embargo, existe una compensación. SHARP representa con precisión puntos de vista cercanos, en lugar de sintetizar partes completamente invisibles de la escena. Esto significa que los usuarios no pueden alejarse demasiado del punto de vista desde el que se tomó la foto, ya que el modelo no sintetiza partes de la escena totalmente invisibles.

Así es como Apple mantiene el modelo lo suficientemente rápido como para generar el resultado en menos de un segundo, además de lo suficientemente estable como para crear un resultado más creíble. Aquí hay una comparación entre SHARP y Gen3C, que es uno de los métodos anteriores más poderosos:

Quizás más interesante que confiar en la palabra de Apple es probarlo usted mismo. Apple ha puesto SHARP a disposición en GitHuby los usuarios compartieron sus propios resultados con sus pruebas.

Aquí algunas publicaciones que los usuarios de X han compartido en los últimos días:

Habrás notado que la última publicación es en realidad un video. Esto va más allá del alcance inicial de Apple para SHARP y muestra otras formas en que este modelo, o al menos su enfoque subyacente, podría ampliarse en trabajos futuros.

Si decide probar SHARP, comparta los resultados con nosotros en los comentarios a continuación.

Ofertas de accesorios en Amazon

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.





Fuente