Los diseñadores enseñan a la IA a generar una mejor interfaz de usuario en un nuevo estudio de Apple


Apple continúa explorando cómo la IA generativa puede mejorar los procesos de desarrollo de aplicaciones. Esto es lo que están mirando.

un poco de contexto

Hace unos meses, un equipo de investigadores de Apple publicó un interesante estudio sobre el entrenamiento de IA para generar código de interfaz de usuario funcional.

En lugar de la calidad del diseño, el estudio se centró en garantizar que el código generado por la IA esté realmente compilado y coincida aproximadamente con las indicaciones del usuario en términos de lo que debe hacer la interfaz y cómo debe verse.

El resultado fue UICoder, una familia de plantillas de código abierto sobre las que puedes aprender más. aquí.

El nuevo estudio

Ahora, parte del equipo responsable de UICoder ha publicado un nuevo artículo titulado «Mejora de las plantillas de generación de UI basadas en los comentarios de los diseñadores.”

En él, los investigadores explican que los métodos existentes de aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) no son los mejores métodos para capacitar a los LLM para generar de manera confiable interfaces de usuario bien diseñadas porque «no se alinean bien con los flujos de trabajo de los diseñadores e ignoran la rica lógica utilizada para criticar y mejorar los diseños de interfaces de usuario».

Para solucionar este problema, propusieron un camino diferente. Pidieron a los diseñadores profesionales que criticaran y mejoraran directamente las interfaces de usuario generadas por el modelo mediante comentarios, bocetos e incluso ediciones prácticas, y luego convirtieran esas ediciones de antes y después en datos utilizados para refinar el modelo.

Esto les permitió entrenar un modelo de recompensa sobre mejoras de diseño concretas, enseñando así al generador de interfaz de usuario a preferir diseños y componentes que reflejen mejor el criterio de diseño del mundo real.

la configuración

En total, participaron en el estudio 21 diseñadores:

Los participantes reclutados tenían distintos niveles de experiencia en diseño profesional, desde 2 hasta más de 30 años. Los participantes también trabajaron en diferentes áreas del diseño, como diseño UI/UX, diseño de productos y diseño de servicios. Los diseñadores participantes también notaron la frecuencia de las revisiones de diseño (tanto formales como informales) como parte de sus actividades profesionales: desde una vez cada pocos meses hasta varias veces por semana.

Los investigadores recopilaron 1.460 anotaciones, que luego se convirtieron en ejemplos emparejados de «preferencias» de interfaz de usuario, contrastando la interfaz original generada por el modelo con las versiones mejoradas de los diseñadores.

Esto, a su vez, se utilizó para entrenar un modelo de recompensa para perfeccionar el creador de la interfaz de usuario:

El modelo de recompensa acepta i) una imagen renderizada (una captura de pantalla de la interfaz de usuario) y ii) una descripción en lenguaje natural (una descripción objetivo de la interfaz de usuario). Estas dos entradas se introducen en el modelo para producir una puntuación numérica (recompensa), que se calibra para que los diseños visuales de mayor calidad den como resultado puntuaciones más altas. Para asignar recompensas al código HTML, utilizamos el proceso de representación automatizada descrito en la Sección 4.1 para representar primero el código como capturas de pantalla utilizando el software de automatización del navegador.

En cuanto a los modelos generadores, Apple utilizó Qwen2.5-Coder como modelo base principal para generar la interfaz de usuario, luego aplicó el mismo modelo de recompensa entrenado por diseñadores a variantes Qwen más pequeñas y nuevas para probar qué tan bien se generalizaba el enfoque a diferentes tamaños y versiones de modelos.

Curiosamente, como señalan los propios autores del estudio, este marco termina pareciéndose mucho a un canal RLHF tradicional. La diferencia, argumentan, es que la señal de aprendizaje proviene de los flujos de trabajo nativos del diseñador (comentarios, bocetos y revisiones prácticas) en lugar de simples datos de clasificación.

Los resultados

Entonces, ¿realmente funcionó? Según los investigadores, la respuesta es sí, con algunas reservas importantes.

En general, los modelos entrenados en base a comentarios nativos de los diseñadores (especialmente con bocetos y revisiones directas) produjeron diseños de interfaz de usuario de calidad significativamente mayor que los modelos base y las versiones entrenadas utilizando solo clasificación o datos de calificación convencionales.

De hecho, los investigadores notaron que su modelo de mejor rendimiento (Qwen3-Coder ajustado con retroalimentación de boceto) superó a GPT-5. Quizás aún más impresionante es que esto se derivó en última instancia de solo 181 anotaciones de bocetos escritas por diseñadores.

Nuestros resultados muestran que ajustar nuestro modelo de recompensa basado en bocetos condujo consistentemente a mejoras en las capacidades de generación de UI en todos los puntos de referencia probados, lo que sugiere generalización. También mostramos que una pequeña cantidad de comentarios de expertos de alta calidad puede permitir que los modelos más pequeños superen a los LLM propietarios más grandes en la generación de UI.

En cuanto a la advertencia, los investigadores notaron que la subjetividad juega un papel importante cuando se trata de qué constituye exactamente una buena interfaz:

Uno de los principales desafíos de nuestro trabajo y otros problemas centrados en el ser humano es gestionar la subjetividad y las múltiples resoluciones de los problemas de diseño. Ambos fenómenos también pueden conducir a una gran variación en las respuestas, lo que plantea problemas para los mecanismos de retroalimentación de clasificación ampliamente utilizados.

En el estudio, esta brecha se manifestó en un desacuerdo sobre qué diseños eran realmente mejores. Cuando los investigadores evaluaron de forma independiente los mismos pares de interfaces de usuario que los diseñadores habían clasificado, sólo estuvieron de acuerdo con las elecciones de los diseñadores el 49,2 por ciento de las veces, lo que no es una coincidencia.

Por el contrario, cuando los diseñadores proporcionaron comentarios dibujando mejoras o modificando directamente las interfaces de usuario, el equipo de investigación estuvo de acuerdo con estas mejoras con mucha más frecuencia: 63,6% para los bocetos y 76,1% para las modificaciones directas.

En otras palabras, cuando los diseñadores podían mostrar específicamente lo que querían cambiar en lugar de simplemente elegir entre dos opciones, era más fácil ponerse de acuerdo sobre lo que realmente significaba «mejor».

Para una visión más profunda del estudio, incluidos más aspectos técnicos, materiales de capacitación y más ejemplos de interfaz, sigue este enlace.

Ofertas de accesorios en Amazon

FTC: utilizamos enlaces de afiliados automáticos que generan ingresos. Más.



Fuente