Los investigadores de Apple han desarrollado una nueva forma de entrenar modelos de IA para subtítulos de imágenes que proporciona descripciones más precisas y detalladas utilizando modelos mucho más pequeños. Aquí están los detalles.
El nuevo modelo podría acelerar el entrenamiento de la futura IA multimodal
En un nuevo estudio titulado RubiCap: aprendizaje de refuerzo guiado por temas para subtítulos de imágenes densosUn equipo de investigadores de Apple colaboró con la Universidad de Wisconsin-Madison para desarrollar un nuevo marco para un modelo de subtítulos de imágenes densos, produciendo resultados de última generación en múltiples puntos de referencia.
Los subtítulos de imágenes densos implican generar descripciones regionales detalladas de todo lo que sucede en una imagen, en lugar de un único resumen general.
En otras palabras, identifica múltiples elementos y regiones de una imagen y los describe con gran detalle, proporcionando una comprensión mucho más rica de la escena que una descripción global.
A continuación se muestran algunos ejemplos del artículo original de Stanford sobre subtítulos densos. DenseCap: redes de localización totalmente convolucionales para subtítulos densos:
Los subtítulos de imágenes densos se pueden utilizar para una variedad de tareas, como entrenar el lenguaje de visión y modelos de texto a imagen. Cuando se aplica a funciones orientadas al usuario, puede mejorar la búsqueda de imágenes e incluso las herramientas de accesibilidad.
El problema, según los investigadores, es que los enfoques actuales basados en IA para entrenar modelos de subtítulos de imágenes densas tienden a fallar en muchos aspectos:
Los subtítulos de imágenes densos son esenciales para la alineación multimodal en el entrenamiento previo del lenguaje visual y la generación de texto a imagen, pero escalar anotaciones de calidad experta es prohibitivamente costoso. Aunque los subtítulos sintéticos a través de potentes modelos de lenguaje de visión (VLM) son una alternativa práctica, la destilación supervisada a menudo da como resultado una diversidad de producción limitada y una generalización débil. Lihat juga yfbr. El aprendizaje por refuerzo (RL) podría superar estas limitaciones, pero hasta ahora sus éxitos se han concentrado en áreas verificables que dependen de controladores deterministas, un lujo que no está disponible en los subtítulos abiertos.
Teniendo esto en cuenta, propusieron un nuevo marco para abordar estas limitaciones, adoptando un enfoque interesante.
Tomaron muestras aleatorias de 50.000 imágenes de dos conjuntos de datos de entrenamiento, PixMoCap y DenseFusion-4V-100K.
Para cada imagen, el sistema generó múltiples opciones de subtítulos utilizando un conjunto de modelos de lenguaje de visión existentes, incluidos Gemini 2.5 Pro, GPT-5, Qwen2.5-VL-72B-Instruct, Gemma-3-27B-IT y Qwen3-VL-30B-A3B-Instruct.
Al mismo tiempo, el modelo entrenado con RubiCap produjo su propio título para esta imagen.
A continuación, RubiCap utilizó Gemini 2.5 Pro para:
- Analice la imagen con leyendas candidatas y la propia salida del modelo;
- Identificar en qué coincidieron los modelos y qué se perdió o se distorsionó;
- Convierta esto en criterios claros para juzgar los subtítulos.
Después de eso, Qwen2.5-7B-Instruct actuó como juez, calificando los subtítulos según cada criterio para producir la señal de recompensa utilizada para el entrenamiento.
Como resultado, el modelo recibió comentarios más precisos y estructurados sobre lo que debía corregirse, lo que condujo a subtítulos más precisos sin depender de una única respuesta «correcta».
Al final, los investigadores produjeron tres modelos: RubiCap-2B, RubiCap-3B y RubiCap-7B, con 2 mil millones, 3 mil millones y 7 mil millones de parámetros, respectivamente.
Y en comparación con los enfoques actuales, funcionaron sorprendentemente bien, superando a los modelos con hasta 72 mil millones de parámetros.
Extracto del estudio:
A través de extensas pruebas comparativas, RubiCap logra las tasas de ganancia más altas en CapArena, superando la destilación supervisada, los métodos RL anteriores, las anotaciones de expertos humanos y los resultados aumentados de GPT-4V. En CaptionQA, demuestra una eficiencia de palabras superior: nuestro modelo 7B coincide con Qwen2.5-VL-32B-Instruct y nuestro modelo 3B supera a su contraparte 7B. Sorprendentemente, el uso del compacto RubiCap-3B como subtítulo produce VLM pre-entrenados más potentes que aquellos entrenados con subtítulos de modelos propietarios.
Y
En una evaluación de clasificación ciega, RubiCap-7B obtiene la mayor proporción de asignaciones de rango 1 entre todos los modelos, incluidos los límites 72B y 32B, logrando la penalización por alucinación más baja y la mayor precisión.
En caso de que se lo haya perdido, los investigadores notaron que el modelo más pequeño, con 3 mil millones de parámetros, superó a su contraparte más grande en algunos puntos de referencia, lo que sugiere que un modelo de subtítulos de imágenes fuerte y denso no necesariamente requiere una escala masiva para ofrecer resultados de alta calidad.
Aquí hay algunas comparaciones de subtítulos entre RubiCap-7B-DenseFusion y Qwen2.5-VL-7B-Instruct:
Para obtener más información sobre el estudio, incluida una mirada en profundidad a sus términos técnicos, sigue este enlace.



