Mientras que los agentes de IA se están acercando a medidas reales en nuestro nombre (Messenger a alguien, comprar algo, cambiar los parámetros de la cuenta, etc.), un nuevo estudio coescrito por Apple examina cómo estos sistemas realmente para entender las consecuencias de sus acciones. Esto es lo que descubrieron.
Recientemente presentada a la conferencia ACM sobre interfaces de usuario inteligentes en Italia, el periódico Desde la interacción hasta el impacto: a los agentes de IA más seguros al comprender y evaluar los impactos de la operación de interfaz de usuario móvil Introducir un marco detallado para comprender qué puede suceder cuando un agente de IA interactúa con una interfaz de usuario móvil.
Lo que es interesante en este estudio es que ella no solo explora si Los agentes pueden presionar el botón correcto, sino más bien si pueden anticipar el consecuencias de lo que puede suceder después de escribir y si debería proceder.
Investigadores:
«Aunque investigaciones previas han estudiado mecánica de cómo los agentes de IA podrían navegar en IUS y comprender la estructura de la interfaz de usuario, los efectos de los agentes y sus acciones autónomas, en particular las que pueden ser riesgosas o irreversibles, están bajo exploración bajo exploración.
Clasificar interacciones riesgosas
La premisa del estudio es que la mayoría de los conjuntos de datos para la capacitación de los agentes de la interfaz de usuario de hoy están compuestas de cosas relativamente inofensivas: navegar un flujo, abrir una aplicación, desplazarse a través de las opciones. Por lo tanto, el estudio decidió ir más allá.
En el estudio, los participantes reclutados fueron responsables de usar aplicaciones móviles reales y registrar acciones que los incomodarían si fueran desencadenados por una IA sin su permiso. Cosas como enviar mensajes, cambiar contraseñas, cambiar los detalles del perfil o hacer transacciones financieras.
Estas acciones se etiquetaron luego utilizando un marco recientemente desarrollado que no solo considera el impacto inmediato en la interfaz, sino también en factores como:
- Intención de usuario: ¿Qué está tratando de lograr el usuario? ¿Es informativo, transaccional, comunicativo o simplemente navegación?
- Impacto en la interfaz de usuario: ¿La acción cambia cómo se ve la interfaz, qué muestra o dónde te lleva?
- Impacto en el usuario: ¿Podría esto afectar la confidencialidad, los datos, el comportamiento o los activos digitales del usuario?
- Reversibilidad: Si algo anda mal, ¿se puede cancelar fácilmente? O en absoluto?
- Frecuencia: ¿Es algo que generalmente se hace de vez en cuando o una y otra vez?
El resultado fue un marco que ayuda a los investigadores a evaluar si los modelos consideran cosas como: «¿Se puede cancelar esto en un solo toque?» «¿Eso alerta a alguien más?» «¿Eso deja un rastro?», Y tenga en cuenta antes de actuar en nombre del usuario.
Prueba el juicio de la IA
Una vez que se ha construido el conjunto de datos, el equipo lo cruzó por cinco modelos de idiomas principales, incluidos GPT-4, Google Gemini y Apple FuriaPara ver en qué medida podrían clasificar el impacto de cada acción.
El resultado? Google Gemini ha funcionado mejor en las llamadas pruebas de aire cero (56%de precisión), que miden cómo una IA puede administrar las tareas en las que no se ha formado explícitamente. Mientras tanto, la versión multimodal de GPT-4 lideró el paquete (58%de precisión) en la evaluación de impacto cuando se alienta a razonar paso a paso utilizando técnicas de cadena de pensamiento.
9to5mac
Si bien los asistentes vocales y los agentes mejoran para seguir órdenes en lenguaje natural («Reserve un vuelo», «Cancelar esta suscripción», etc.), el verdadero desafío de seguridad es tener un agente que sepa al solicitar confirmación o incluso cuando no actúe en absoluto.
Este estudio aún no resuelve, pero ofrece una referencia medible para probar la forma en que los modelos incluyen los desafíos de sus acciones.
Y aunque hay mucha investigación sobre la alineación, que es el área más amplia de seguridad de IA preocupada por garantizar que los agentes hagan lo que los humanos realmente quieren, la búsqueda de Apple agrega una nueva dimensión. Esto cuestiona cuán buenos agentes de IA son para anticipar los resultados de sus acciones y qué hacen con esta información antes de actuar.