Un estudio de Apple muestra que los LLM pueden saber lo que estás haciendo a partir de datos de audio


Los investigadores de Apple han publicado un estudio que examina cómo los LLM pueden analizar datos de audio y movimiento para obtener una mejor visión de las actividades de los usuarios. Aquí están los detalles.

Son buenos en eso, pero no de una manera aterradora.

Un nuevo artículo titulado «Uso de LLM para la fusión tardía de sensores multimodales para el reconocimiento de actividades» ofrece información sobre cómo Apple podría considerar integrar los análisis de LLM con datos de sensores tradicionales para obtener una comprensión más precisa de la actividad del usuario.

Dicen que esto tiene un gran potencial para hacer que el análisis de la actividad sea más preciso, incluso en situaciones donde los datos de los sensores son insuficientes.

Por parte de los investigadores:

«Los flujos de datos de sensores proporcionan información valiosa sobre las actividades y el contexto para aplicaciones posteriores, aunque integrar información adicional puede ser difícil. Mostramos que se pueden usar modelos de lenguaje grandes (LLM) para la fusión tardía para la clasificación de actividades a partir de datos de series de tiempo de audio y movimiento. Seleccionamos un subconjunto de datos para el reconocimiento de diversas actividades en contextos (por ejemplo, actividades en el hogar, deportes) del conjunto de datos Ego4D. Los LLM evaluados lograron puntuaciones F1 significativamente mejores que la probabilidad cero y la clasificación única sin entrenamiento específico para la tarea. La clasificación de disparo cero mediante la fusión basada en LLM a partir de modelos de modalidad específica puede permitir aplicaciones temporales multimodales donde los datos de entrenamiento alineados son limitados para aprender un espacio de incrustación compartido. Además, la fusión basada en LLM puede permitir la implementación de modelos sin requerir memoria ni cálculo adicionales para modelos multimodales específicos de la aplicación.

En otras palabras, los LLM son bastante buenos para inferir lo que está haciendo un usuario a partir de señales básicas de audio y movimiento, incluso si no están específicamente capacitados para hacerlo. Además, cuando se les da solo un ejemplo, su precisión mejora aún más.

Una distinción importante es que en este estudio el LLM no se basó en la grabación de audio real, sino en descripciones de texto breves generadas por modelos de audio y un modelo de movimiento basado en IMU (que rastrea el movimiento a través de datos de acelerómetro y giroscopio), como se muestra a continuación:

Sumérgete un poco más profundo

En el artículo, los investigadores explican que utilizaron Ego4D, un conjunto de datos masivo de medios filmados desde una perspectiva en primera persona. Los datos contienen miles de horas de entornos y situaciones del mundo real, desde tareas domésticas hasta actividades al aire libre.

Extracto del estudio:

«Seleccionamos un conjunto de datos de actividades diarias del conjunto de datos Ego4D buscando actividades de la vida diaria en las descripciones narrativas proporcionadas. El conjunto de datos seleccionados incluye muestras de 20 segundos de doce actividades de alto nivel: pasar la aspiradora, cocinar, lavar la ropa, comer, jugar baloncesto, jugar fútbol, ​​jugar con mascotas, leer un libro, usar una computadora, lavar los platos, mirar televisión, hacer ejercicio/levantar pesas. Estas actividades fueron seleccionadas para cubrir una variedad de tareas domésticas y de acondicionamiento físico, y en función de su prevalencia en el conjunto de datos más grande.

Los investigadores analizaron datos de audio y movimiento a través de modelos más pequeños que generaban subtítulos de texto y predicciones de clase, luego introdujeron esos resultados en diferentes LLM (Gemini-2.5-pro y Qwen-32B) para ver qué tan bien podían identificar la actividad.

A continuación, Apple comparó el rendimiento de estos modelos en dos situaciones diferentes: una en la que se les dio una lista de 12 actividades posibles para elegir (conjunto cerrado) y otra en la que no se les dio ninguna opción (abierto).

Para cada prueba, se les dieron diferentes combinaciones de subtítulos de audio, etiquetas de audio, datos de predicción de actividad IMU y contexto adicional, y así es como lo hicieron:

En última instancia, los investigadores señalan que los resultados de este estudio ofrecen información interesante sobre cómo la combinación de múltiples modelos puede beneficiar los datos de actividad y salud, particularmente en los casos en los que los datos sin procesar de los sensores por sí solos no son suficientes para proporcionar una imagen clara de la actividad del usuario.

Quizás lo más importante es que Apple documentos adicionales publicados junto con el estudio, incluidos ID de segmentos de Ego4D, marcas de tiempo, indicaciones y ejemplos únicos utilizados en los experimentos, para ayudar a los investigadores interesados ​​a reproducir los resultados.

Ofertas de accesorios en Amazon

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.



Fuente