Apple ha lanzado Pico-Banana-400K, un conjunto de datos de búsqueda de 400.000 imágenes que, curiosamente, se creó utilizando los modelos Gemini-2.5 de Google. Aquí están los detalles.
El equipo de investigación de Apple publicó un interesante estudio titulado «Pico-Banana-400K: un conjunto de datos a gran escala para la edición de imágenes guiada por texto».
Además del estudio, también han publicado el conjunto completo de 400.000 imágenes producidas, que cuentan con una licencia de investigación no comercial. Esto significa que cualquiera puede usarlo y explorarlo, siempre que sea para trabajo académico o investigación de IA. En otras palabras, no se puede utilizar comercialmente.
Está bien, pero ¿qué es?
Hace unos meses, Google lanzó la plantilla Gemini-2.5-Flash-Image, también conocida como Nanon-Banana, que posiblemente sea la vanguardia en lo que respecta a plantillas de edición de imágenes.
Otros modelos también mostraron mejoras significativas, pero, como dicen los investigadores de Apple:
«A pesar de estos avances, la investigación abierta sigue limitada por la falta de conjuntos de datos de edición a gran escala, de alta calidad y totalmente compartibles. Los conjuntos de datos existentes a menudo dependen de generaciones sintéticas de modelos propietarios o de subconjuntos limitados seleccionados por humanos. Además, estos conjuntos de datos frecuentemente exhiben cambios de dominio, distribuciones de tipos de edición desequilibradas y control de calidad inconsistente, lo que obstaculiza el desarrollo de modelos de edición sólidos».
Entonces Apple decidió hacer algo al respecto.
Edificio Pico-Banana-400K
Lo primero que hizo Apple fue extraer una cantidad no especificada de fotografías reales del conjunto de datos de OpenImages, «seleccionadas para garantizar la cobertura de humanos, objetos y escenas de texto».
A continuación, compiló una lista de 35 tipos diferentes de cambios que un usuario podría pedirle al modelo, agrupados en ocho categorías. Por ejemplo:
- Píxel y fotométrico: Agregue grano de película o un filtro antiguo
- Centrado en el ser humano: Figura de juguete estilo Funko-Pop de la persona.
- Escena y composición multitemática: Cambiar las condiciones climáticas (soleado/lluvia/nieve)
- Semántica a nivel de objeto: Mover un objeto (cambiar su posición/relación espacial)
- Escalera: Zoom
Luego, los investigadores cargarían una imagen en Nano-Banana, acompañada de una de estas indicaciones. Una vez que Nano-Banana terminara de generar la imagen editada, los investigadores pedirían a Gemini-2.5-Pro que analizara el resultado, aprobándolo o rechazándolo, en función del cumplimiento de las instrucciones y la calidad visual.
El resultado se convirtió en Pico-Banana-400K, que incluye imágenes producidas por ediciones de una sola ronda (un solo mensaje), secuencias de edición de múltiples rondas (múltiples mensajes iterativos) y pares de preferencias que comparan resultados exitosos y fallidos (para que los modelos también puedan aprender cómo son los resultados no deseados).
Si bien reconocen las limitaciones de Nano-Banana en la edición espacial fina, la extrapolación de diseño y la tipografía, los investigadores esperan que Pico-Banana-400K sirva como «una base sólida para entrenar y evaluar la próxima generación de modelos de edición de imágenes guiados por texto».
Puedes encontrar el estudio en arXivy el conjunto de datos está disponible de forma gratuita en GitHub.



