Partiendo de un modelo anterior llamado UniGen, un equipo de investigadores de Apple presenta UniGen 1.5, un sistema capaz de manejar la comprensión, generación y edición de imágenes dentro de un solo modelo. Aquí están los detalles.
Construyendo sobre el UniGen original
En mayo pasado, un equipo de investigadores de Apple publicó un estudio titulado UniGen: estrategias mejoradas de capacitación y pruebas para una comprensión y generación multimodal unificada.
En este trabajo, introdujeron un gran modelo de lenguaje multimodal unificado capaz de comprender y generar imágenes dentro de un solo sistema, en lugar de depender de modelos separados para cada tarea.
Ahora, Apple ha publicado una continuación de ese estudio, en un artículo titulado UniGen-1.5: Generación y edición de imágenes mejorada mediante la unificación de recompensas en el aprendizaje por refuerzo.
UniGen-1.5, explicado
Esta nueva investigación amplía UniGen añadiendo capacidades de edición de imágenes al modelo, siempre dentro de un único marco unificado, en lugar de dividir la comprensión, la generación y la edición entre diferentes sistemas.
Unificar estas capacidades en un solo sistema es un desafío porque comprender y generar imágenes requiere enfoques diferentes. Sin embargo, los investigadores dicen que un modelo unificado puede aprovechar su poder de comprensión para mejorar el rendimiento de la producción.
Dicen que uno de los principales desafíos de la edición de imágenes es que los modelos a menudo tienen dificultades para comprender completamente instrucciones de edición complejas, especialmente cuando los cambios son sutiles o muy específicos.
Para resolver este problema, UniGen-1.5 introduce un nuevo paso posterior al entrenamiento llamado Cambiar alineación de instrucciones:
«Además, observamos que el modelo sigue siendo inadecuado para manejar diversos escenarios de edición después de un ajuste fino supervisado debido a su comprensión insuficiente de las instrucciones de edición. Por lo tanto, proponemos la alineación de las instrucciones de edición como un paso ligero posterior a SFT para mejorar la alineación entre las instrucciones de edición y la semántica de la imagen de destino. Específicamente, toma la imagen de condición y la instrucción como entradas y se optimiza para predecir el contenido semántico de la imagen de destino a través de descripciones textuales. Los resultados experimentales sugieren que este paso es muy beneficioso para mejorar el rendimiento de edición.
En otras palabras, antes de pedirle al modelo que mejore sus resultados mediante el aprendizaje por refuerzo (que entrena al modelo recompensando los mejores resultados y penalizando los peores), los investigadores primero lo entrenan para inferir una descripción textual detallada de lo que debe contener la imagen editada, basándose en la imagen original y las instrucciones de edición.
Este paso intermedio ayuda al modelo a internalizar mejor el cambio previsto antes de generar la imagen final.
Luego, los investigadores emplean el aprendizaje por refuerzo de una manera que podría decirse que es la contribución más importante del artículo: utilizan el mismo sistema de recompensa para generar y editar imágenes, lo que anteriormente era un desafío porque los cambios pueden variar desde cambios menores hasta transformaciones completas.
Como resultado, cuando se compara con varios puntos de referencia estándar de la industria que miden qué tan bien los modelos siguen instrucciones, mantienen la calidad visual y manejan ediciones complejas, UniGen-1.5 iguala o supera a varios modelos de lenguaje extendido multimodal abiertos y propietarios de última generación:
Con los esfuerzos anteriores, UniGen-1.5 proporciona una base más sólida para avanzar en la investigación sobre MLLM unificados y establece un rendimiento competitivo en los criterios de comprensión, generación y edición de imágenes. Los resultados experimentales muestran que UniGen-1.5 obtiene puntuaciones de 0,89 y 86,83 en GenEval y DPG-Bench, superando significativamente a métodos recientes como BAGEL y BLIP3o. Para la edición de imágenes, UniGen-1.5 logra puntuaciones generales de 4,31 en ImgEdit, superando a los modelos recientes de código abierto como OminiGen2 y es comparable a modelos propietarios como GPT-Image-1.
A continuación se muestran algunos ejemplos de las capacidades de generación de texto a imagen y edición de imágenes de UniGen-1.5 (desafortunadamente, los investigadores parecen haber cortado por error las indicaciones para el segmento de texto a imagen en la primera imagen):
Los investigadores señalan que UniGen-1.5 tiene dificultades con la generación de texto, así como con la coherencia de las identidades en determinadas circunstancias:
Los casos de falla de UniGen-1.5 en las tareas de generación de texto a imagen y edición de imágenes se muestran en la Figura A. En la primera fila, presentamos los casos en los que UniGen-1.5 no logra representar con precisión los caracteres de texto, porque el detokenizador discreto y liviano lucha por controlar los finos detalles estructurales necesarios para la generación de texto. En la segunda fila mostramos dos ejemplos con cambios de identidad visibles resaltados por el círculo, por ejemplo cambios en la textura y forma del pelaje facial del gato y diferencias en el color de la pluma del pájaro. UniGen-1.5 necesita más mejoras para abordar estas limitaciones.
Puedes encontrar el estudio completo. aquí.
Ofertas de accesorios en Amazon
FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.



