Los investigadores de Apple han publicado un estudio sobre Manzano, un modelo multimodal que combina comprensión visual y generación de texto basada en imágenes, al tiempo que reduce significativamente las compensaciones entre rendimiento y calidad de las implementaciones actuales. Aquí están los detalles.
Un enfoque interesante a un problema de última generación.
En el estudio titulado MANZANO: un modelo multimodal unificado simple y escalable con tokenizador de visión híbridaUn equipo de casi 30 investigadores de Apple detalla un nuevo enfoque unificado que permite tanto la comprensión de imágenes como la generación de texto basado en imágenes en un único modelo multimodal.
Esto es importante porque los modelos multimodales unificados actuales que soportan la generación de imágenes a menudo enfrentan compensaciones: o sacrifican la comprensión visual para priorizar la generación de imágenes autorregresivas, o priorizan la comprensión, sacrificando así la fidelidad generativa. En otras palabras, a menudo les cuesta destacar en ambas áreas simultáneamente.
He aquí por qué sucede esto, según los investigadores:
Una de las principales razones de esta brecha es la naturaleza conflictiva de la tokenización visual. La generación autorregresiva generalmente prefiere tokens de imágenes discretos, mientras que la comprensión generalmente se beneficia de las incrustaciones continuas. Muchos modelos adoptan una estrategia de tokenizador dual, utilizando un codificador semántico para características ricas y continuas, mientras que un tokenizador cuantificado separado, como VQ-VAE, maneja la generación. Sin embargo, esto requiere que el modelo de lenguaje procese dos tipos diferentes de tokens de imágenes, uno del espacio semántico de alto nivel y el otro del espacio espacial de bajo nivel, creando así un importante conflicto de tareas. Aunque algunas soluciones, como los transformadores de mezcla (MoT), pueden aliviar este problema al dedicar rutas separadas a cada tarea, son ineficientes en cuanto a parámetros y, a menudo, son incompatibles con las arquitecturas modernas de expertos en mezcla (MoE). Una línea de trabajo alternativa evita este conflicto congelando un LLM multimodal previamente entrenado y conectándolo a un decodificador de transmisión. Si bien esto preserva la capacidad de comprensión, desacopla la generación, perdiendo así posibles beneficios mutuos y limitando las posibles ganancias de generación derivadas de la ampliación del LLM multimodal.
En pocas palabras, las arquitecturas multimodales actuales no son adecuadas para realizar ambas tareas simultáneamente porque dependen de representaciones visuales contradictorias para la comprensión y la generación, que el mismo modelo de lenguaje lucha por conciliar.
Aquí es donde entra Manzano. Unifica las tareas de comprensión y generación mediante el uso de un LLM autorregresivo para predecir semánticamente lo que debe contener la imagen, luego pasa estas predicciones a un decodificador de transmisión (el proceso de eliminación de ruido que explicamos aquí) que representa los píxeles reales.
Según explican los investigadores, Manzano combina tres componentes en su arquitectura:
- Un tokenizador de visión híbrido que produce representaciones visuales continuas y discretas;
- Un decodificador LLM que acepta tokens de texto continuo y/o incrustaciones de imágenes y predice de forma autorregresiva la siguiente imagen discreta o tokens de texto de un vocabulario común;
- Un decodificador de imágenes que genera píxeles de imagen a partir de tokens de imagen predichos
Utilizando este enfoque, «Manzano maneja indicaciones contrarias a la intuición y que desafían la física (por ejemplo, «El pájaro vuela debajo del elefante») de una manera comparable a GPT-4o y Nano Banana», dicen los investigadores.
Los investigadores también señalan que en varios puntos de referencia, «los modelos Manzano 3B y 30B logran un rendimiento superior o competitivo en comparación con otros LLM multimodales unificados SOTA».
Los investigadores de Apple probaron Manzano en varios tamaños, desde un modelo con 300 millones de parámetros hasta una versión con 30 mil millones de parámetros. Esto les permitió evaluar cómo mejora el rendimiento multimodal unificado a medida que evoluciona el modelo:
Aquí hay otra comparación entre Manzano y otros modelos de vanguardia, incluido el Nano Banana de Google y el GPT-4o de OpenAI:
Finalmente, Manzano también se desempeña bien en tareas de edición de imágenes, incluida la edición basada en instrucciones, la transferencia de estilo, la pintura interior y exterior y la estimación de profundidad.
Para leer el estudio completo, con detalles técnicos detallados sobre la capacitación del tokenizador híbrido de Manzano, el diseño del decodificador de transmisión, los experimentos de escalado y las evaluaciones humanas, sigue este enlace.
Y si está interesado en este tema, asegúrese de consultar nuestra explicación sobre UniGen, otro modelo de imagen prometedor que los investigadores de Apple detallaron recientemente. Si bien ninguno de estos modelos está disponible en dispositivos Apple, sugieren que se está trabajando para lograr mejores resultados de generación de imágenes propias en Image Playground y más allá.



