Apple ha enseñado a un modelo de IA para razonar en las interfaces de aplicaciones


Un nuevo estudio respaldado por manzanas, en colaboración con la Universidad de Aalto en Finlandia, presenta Iluvui: un modelo de lenguaje visual formado para comprender las interfaces de aplicaciones móviles de capturas de pantalla y conversaciones en lenguaje natural. Esto es lo que significa y cómo lo hicieron.

Iluvui: una IA que superó el modelo en el que se basó

En el periódico Iluvui: modelado de la visión lingüística regulada por la investigación de las conversaciones de las máquinasEl equipo asume un desafío de larga data para la interacción humana-computadora, o HCI: enseñar a los modelos de IA a razonar en interfaces de usuarios como humanos, lo que en la práctica significa visualmente, así como semánticamente.

«La UIS que acorde y atmemástica y ATMA de las acciones de UI son una tarea difícil porque los elementos de la interfaz de usuario en una pantalla, como elementos de lista, cuadros y campos de texto, codifican muchas capas de información más allá de sus posibilidades de interactividad.

Actualmente, como explican los investigadores, la mayoría de los modelos de lenguaje de visión se forman en imágenes naturales, como perros o señales de tráfico, para que no funcionen tan bien cuando se les pide que interpreten entornos más estructurados, como las UI de aplicaciones:

«La fusión visual con información textual es importante para comprender las interfaces de los usuarios porque refleja el número de humanos que participan en el mundo. Un enfoque que buscaba llenar este vacío cuando se aplican a imágenes naturales son los modelos de visión corta en comparación con las imágenes naturales debido a la ausencia de ejemplos de interfaz de usuario en sus datos de capacitación.» »

En este espíritu, los investigadores han refinado el VLM de código abierto LavaY también adaptaron su método de entrenamiento para especializarse en el campo de la interfaz de usuario.

Lo formaron en pares de imágenes de texto que se generaron sintéticamente siguiendo algunos «ejemplos de oro». El conjunto de datos final incluyó interacciones de estilo de Preguntas y D A, descripciones detalladas de la pantalla, resultados de acción previstos e incluso varias etapas (como «Cómo escuchar el último episodio de un podcast» o «Cómo cambiar los parámetros de brillo». «»).

Una vez entrenado en este conjunto de datos, el modelo resultante, Iuvui, pudo superar el Llava original en los puntos de referencia de la máquina y las pruebas preferiblemente humanas.

Además, no requiere que un usuario especifique una región de interés en la interfaz. En su lugar, el modelo incluye toda la pantalla contextual desde un mensaje simple:

ILUVUI (…) no requiere una región de interés y acepta una solicitud de texto como entrada además de la imagen de la interfaz de usuario, lo que le permite proporcionar respuestas para casos de uso como la respuesta a las preguntas visuales.

¿Cómo se beneficiarán los usuarios?

Los investigadores de Apple dicen que su enfoque podría ser útil para la accesibilidad, así como para las pruebas automatizadas de interfaz de usuario. También señalan que incluso si ILUVUI siempre se basa en componentes abiertos, el trabajo futuro podría involucrar imágenes más grandes, una mejor gestión de resolución y formatos de salida que funcionan perfectamente con los marcos de interfaz de usuario existentes, como JSON.

Y si ha sido actualizado con artículos de investigación AP AI, podría pensar en una encuesta reciente para averiguar si los modelos de IA no solo podían entender, sino que también planearon las consecuencias de las acciones integradas.

Arme a ambos, y las cosas comienzan a ser … interesantes, especialmente si cuenta con la accesibilidad para navegar por sus dispositivos, o si desea que el sistema operativo administre las partes más delicadas de sus flujos de trabajo integrados.

Ofertas de lectores externos en Amazon

FTC: utilizamos enlaces de afiliación de ingresos automáticos. Más.



Fuente