El nuevo modelo de Apple podría mejorar los gráficos del Apple Vision Pro


Un equipo de investigadores de Apple ha desarrollado un nuevo marco que permite renderizar escenas 3D de alta resolución con mucha mayor eficiencia. Aquí están los detalles del nuevo estudio.

un poco de contexto

En un nuevo estudio titulado Menos gaussianos, más textura: 4K Feed-Forward Textured Splatting, un grupo de Investigadores de Apple y la Universidad de Hong Kong proponen un nuevo marco, acertadamente llamado LGTM.

En el estudio, los investigadores explican que a medida que aumenta la resolución, los métodos de salpicaduras gaussianas 3D de retroalimentación existentes rápidamente se vuelven demasiado costosos de ejecutar, lo que hace que las escenas de alta resolución sean cada vez más imprácticas HSThx5D.

En pocas palabras, Feed-forward 3D Gaussian Splatting es una forma de que un modelo de IA transforme rápidamente una o algunas imágenes en una escena 3D que se puede ver desde nuevos ángulos.

De hecho, recientemente cubrimos SPLAT, un modelo de código abierto desarrollado por Apple, que utiliza splatting gaussiano 3D que crea vistas 3D a partir de una única imagen 2D y ofrece resultados impresionantes:

El splatting gaussiano 3D feed-forward difiere de los enfoques de optimización por escena, que construyen cada escena individualmente, paso a paso. Aunque generalmente tardan más en procesarse, generalmente pueden producir resultados más estables.

Entonces, si bien estos enfoques más antiguos pueden requerir más tiempo para adaptarse a una escena específica, los métodos de avance son mucho más rápidos, aunque las versiones existentes resultan difíciles de adaptar a resoluciones más altas.

LGTM

Para abordar este problema, los investigadores proponen el marco LGTM, que «desacopla la complejidad geométrica de la resolución de representación».

En otras palabras, separa la estructura de una escena de sus detalles visuales, por lo que el sistema puede mantener una geometría simple mientras usa texturas para agregar detalles de alta resolución.

Es importante señalar que LGTM no es un modelo independiente. En cambio, se basa en métodos de retroalimentación existentes y mejora la forma en que representan los detalles al superponer predicciones de textura sobre su geometría.

La forma en que procedieron fue doble:

  1. Le pidieron al modelo que aprendiera la estructura de la escena a partir de imágenes de baja resolución y luego comparara el resultado con la verdad del terreno de alta resolución. Esto obligó al modelo a aprender a producir una geometría que todavía parecía correcta, incluso cuando se renderizaba en 2K o 4K, evitando espacios o artefactos.
  2. Introdujeron una segunda red centrada en la apariencia. Toma imágenes de alta resolución y aprende texturas detalladas para cada elemento geométrico, superponiendo de manera efectiva detalles visuales finos en la geometría más simple del primer modelo.

El resultado es un marco que puede actualizar los sistemas existentes para generar escenas 4K detalladas sin la explosión cuadrática de los requisitos computacionales que hacían que los métodos de retroalimentación anteriores no fueran prácticos en resoluciones más altas.

Qué podría significar esto para productos como Apple Vision Pro

Actualmente, Apple Vision Pro tiene dos pantallas con alrededor de 23 millones de píxeles en total, lo que significa que cada ojo recibe más píxeles que un televisor 4K.

Como muestra el estudio, las salpicaduras gaussianas 3D de retroalimentación tienen dificultades con estas resoluciones. Las pantallas pueden manejarlo, pero generar la escena de manera rápida y precisa se convierte en un cuello de botella computacional.

LGTM podría ayudar a resolver este problema en Apple Vision Pro, que a su vez podría ofrecer un rendimiento más fluido e imágenes más nítidas en situaciones en las que se requieren salpicaduras gaussianas 3D de retroalimentación.

En la práctica, esto podría significar más oportunidades para disfrutar de entornos detallados e inmersivos o experiencias de transferencia más realistas, mientras se controla la demanda de procesamiento.

Para ver LGTM en acción, echa un vistazo a la página del proyecto. Presenta métodos como NoPoSplat, DepthSplat y Flash3D, con y sin LGTM, en entradas de vista única y doble.

Al observar los videos e imágenes de muestra, es fácil ver cómo LGTM ayuda a producir resultados mucho más ricos en detalles (especialmente texturas y texto) y más cercanos a las imágenes reales (etiquetadas como GT en las imágenes de muestra).

Al observar los videos e imágenes de muestra, es fácil ver cómo LGTM ayuda a producir resultados mucho más ricos en detalles (especialmente texturas y texto) y más cercanos a las imágenes reales (etiquetadas como GT en las imágenes de muestra).

Para descubrir en Amazon

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.





Fuente