Investigadores de Apple desarrollan un agente de IA local que interactúa con aplicaciones


A pesar de sólo 3 mil millones de parámetros, Ferret-UI Lite iguala o supera el rendimiento de referencia de modelos hasta 24 veces más grandes. Aquí están los detalles.

Un poco de historia sobre el hurón.

En diciembre de 2023, un equipo de 9 investigadores publicó un estudio titulado «FERRET: Referencia y conexión a tierra en cualquier lugar y con cualquier granularidad«. En este artículo, presentaron un modelo de lenguaje grande multimodal (MLLM) capaz de comprender referencias en lenguaje natural a partes específicas de una imagen:

Desde entonces, Apple ha lanzado una serie de artículos de seguimiento que amplían la familia de modelos Ferret, incluidos hurónv2, Hurón-UIY Hurón-UI 2.

Específicamente, Hurón-UI Las variantes ampliaron las capacidades originales de FERRET y fueron entrenadas para superar lo que los investigadores definieron como una deficiencia de los MLLM de dominio general.

Del original Papel de interfaz de usuario de hurón:

El progreso reciente en grandes modelos de lenguaje multimodal (MLLM) es notable, pero estos MLLM de dominio general a menudo no logran comprender ni interactuar de manera efectiva con las pantallas de la interfaz de usuario (UI). En este artículo, presentamos Ferret-UI, un novedoso MLLM diseñado para una mejor comprensión de las pantallas de UI móviles, con capacidades de evaluación comparativa, conexión a tierra y razonamiento. Dado que las pantallas de interfaz de usuario suelen tener una relación de aspecto más alargada y contienen objetos de interés más pequeños (por ejemplo, iconos, texto) que las imágenes naturales, incorporamos «cualquier resolución» encima de Ferret para ampliar los detalles y explotar características visuales mejoradas.

El estudio original de Ferret-UI incluía una aplicación interesante de la tecnología, donde el usuario podía hablar con el modelo para comprender mejor cómo interactuar con la interfaz, como se ve a la derecha.

Hace unos días Apple amplió aún más la familia de modelos Ferret-UI, con un estudio titulado Ferret-UI Lite: Lecciones aprendidas al crear pequeños agentes GUI en dispositivos.

Ferret-UI se creó sobre un modelo de parámetros 13B, centrado principalmente en comprender la interfaz de usuario móvil y las capturas de pantalla de resolución fija. Mientras tanto, Ferret-UI 2 amplió el sistema para admitir múltiples plataformas y una percepción de mayor resolución.

Por el contrario, Ferret-UI Lite es un modelo mucho más liviano, diseñado para ejecutarse en el dispositivo, sin dejar de ser competitivo con agentes GUI mucho más grandes.

Hurón-UI Lite

Según los investigadores del nuevo artículo, «la mayoría de los métodos de agentes GUI existentes (…) se centran en modelos de base grandes». De hecho, «las sólidas capacidades de razonamiento y planificación de los grandes modelos del lado del servidor permiten que estos sistemas de agentes alcancen capacidades impresionantes en diversas tareas de navegación a través de la GUI».

Señalan que si bien se ha avanzado mucho en los sistemas GUI de múltiples agentes y de extremo a extremo, que adoptan diferentes enfoques para agilizar las muchas tareas que implican la interacción agente con las GUI («conexión a tierra de GUI de bajo nivel, comprensión de la pantalla, planificación de múltiples pasos y autorreflexión»), son fundamentalmente demasiado grandes y computacionalmente intensivos para funcionar bien en el dispositivo.

Por eso decidieron desarrollar Ferret-UI Lite, una variante de 3 mil millones de parámetros de Ferret-UI, que «está construida con varios componentes clave, impulsados ​​por conocimientos sobre el entrenamiento de modelos de lenguaje a pequeña escala».

Explotaciones de Ferret-UI Lite:

  • Datos de entrenamiento reales y sintéticos de múltiples dominios GUI;
  • Técnicas de zoom y recorte sobre la marcha (o en tiempo de inferencia) para comprender mejor segmentos específicos de la GUI;
  • Técnicas de aprendizaje supervisado de sintonización y refuerzo.

El resultado es un modelo que se acerca mucho o incluso supera a los modelos de agentes GUI de la competencia, que tienen hasta 24 veces su número de parámetros.

Si bien la arquitectura general (que se detalla meticulosamente en el estudio) es interesante, las técnicas de recorte y zoom en tiempo real son particularmente notables.

El modelo hace una predicción inicial, recorta a su alrededor y luego repredice en esa región recortada. Esto permite que un modelo tan pequeño compense su capacidad limitada para procesar una gran cantidad de tokens de imágenes.

Otra contribución notable del artículo es cómo Ferret-UI Lite esencialmente genera sus propios datos de entrenamiento. Los investigadores crearon un sistema multiagente que interactúa directamente con plataformas GUI en vivo para producir ejemplos de entrenamiento sintéticos a gran escala.

Hay un generador de tareas educativas que sugiere metas de dificultad creciente, un agente de planificación las divide en pasos, un agente base las ejecuta en pantalla y un modelo crítico evalúa los resultados.

Con este proceso, el sistema de capacitación captura la confusión de las interacciones del mundo real (como errores, estados inesperados y estrategias de recuperación), lo que sería mucho más difícil de lograr si se confiara en datos limpios y anotados por humanos.

Curiosamente, mientras Ferret-UI y Ferret-UI 2 utilizaron capturas de pantalla de iPhone y otras interfaces de Apple en sus evaluaciones, Ferret-UI Lite fue entrenado y evaluado en entornos GUI, web y de escritorio de Android, utilizando puntos de referencia como AndroidWorld y OSWorld.

Los investigadores no indican explícitamente por qué eligieron esta ruta para Ferret-UI Lite, pero probablemente refleja dónde están disponibles hoy en día los bancos de pruebas de agentes GUI reproducibles y a gran escala.

De todos modos, los investigadores descubrieron que, si bien Ferret-UI Lite funcionó bien en tareas de bajo nivel y a corto plazo, no funcionó tan bien en interacciones más complejas de varios pasos, una compensación que se esperaría en gran medida, dadas las limitaciones de un modelo pequeño en el dispositivo.

Por otro lado, Ferret-UI Lite ofrece un agente local y, por extensión, privado (ya que no es necesario que los datos vayan a la nube y se procesen en servidores remotos) que interactúa de forma autónoma con las interfaces de las aplicaciones en función de las solicitudes de los usuarios, lo cual, según todas las cuentas, es bastante bueno.

Para obtener más información sobre el estudio, incluidos los análisis y resultados comparativos, sigue este enlace.

Ofertas de accesorios en Amazon

FTC: utilizamos enlaces de afiliados automáticos que generan ingresos. Más.



Fuente