Apple entrenó una IA para reconocer gestos con las manos a partir de datos de sensores


En el nuevo estudio, Apple enseñó un modelo de IA a reconocer gestos con las manos que no formaban parte de su conjunto de datos de entrenamiento original. Aquí están los detalles.

¿Qué es la EMG?

Apple ha publicado un nuevo estudio en su blog Machine Learning Research, titulado EMBridge: mejora de la generalización de gestos a partir de señales EMG mediante el aprendizaje de representación intermodal. Este estudio será presentado en la Conferencia ICLR 2026 en abril.

En él, los investigadores explican cómo entrenaron un modelo de IA para reconocer gestos con las manos, incluso cuando esos gestos específicos no formaban parte de su conjunto de datos original.

Para lograr esto, desarrollaron EMBridge, «un marco de aprendizaje de representación multimodal que cierra la brecha modal entre EMG y pose».

EMG, o electromiografía, mide la actividad eléctrica generada por los músculos durante la contracción. Sus aplicaciones prácticas van desde el diagnóstico médico y la fisioterapia hasta la prueba de prótesis.

Más recientemente (aunque ciertamente no es un área nueva), esta área se ha explorado más ampliamente en dispositivos portátiles y sistemas AR/VR.

Las gafas Ray-Ban Display de Meta, por ejemplo, utilizan tecnología EMG en forma de lo que Meta llama una tira neuronal, un dispositivo que se lleva en la muñeca que «interpreta las señales musculares para navegar por las funciones de Meta Ray-Ban Display», según la descripción de la compañía.

En el estudio de Apple, las señales EMG utilizadas para el entrenamiento no fueron detectadas por un dispositivo de muñeca. En cambio, los investigadores utilizaron dos conjuntos de datos:

  • emg2pose: «(…) un conjunto de datos EMG de código abierto a gran escala que contiene 370 horas de sEMG y datos de posturas de manos sincronizadas de 193 usuarios que dieron su consentimiento, 29 grupos de comportamiento diferentes que incluyen una amplia gama de movimientos discretos y continuos de las manos, como cerrar el puño o contar hasta cinco. Las etiquetas de posturas de las manos se generan utilizando un sistema de captura de movimiento de alta resolución. El conjunto de datos completo contiene más de 80 millones de etiquetas de posturas y es de una escala similar a los equivalentes de visión por computadora más grandes. Cada usuario realizó cuatro grabaciones sesiones por categoría de gesto, cada una con una ubicación diferente de la cinta EMG. Cada sesión duró de 45 a 120 segundos, durante los cuales los usuarios realizaron repetidamente una combinación de 3 a 5 gestos similares o movimientos de forma libre sin restricciones, filtrados de paso de banda (2 a 250 Hz) y filtrados de muesca a 60 Hz.
  • Nina Pro DB2: «Utilizamos dos conjuntos de datos de NinaPro EMG para una evaluación más completa de EMBridge. Específicamente, Ninapro DB2 se utiliza para el preentrenamiento, que incluye datos de posturas de EMG emparejadas de 40 sujetos. Contiene 49 gestos de las manos (incluidas flexiones básicas de los dedos, agarres funcionales y movimientos combinados) realizados por 40 sujetos sanos. Las señales de EMG se registran desde 12 electrodos colocados en el antebrazo a una frecuencia de muestreo de 2 kHz, junto con los datos cinemáticos de la mano capturados por datos de un guante Para la clasificación de gestos posteriores, utilizamos NinaPro DB7, que contiene datos de 20 sujetos no amputados recopilados con el mismo dispositivo EMG y conjunto de gestos que DB2.

Dicho esto, es fácil ver cómo EMBridge de Apple podría allanar el camino para que un futuro modelo de Apple Watch (u otros dispositivos portátiles) controle dispositivos como Apple Vision Pro, Mac, iPhone y otros dispositivos portátiles, incluidas sus próximas gafas inteligentes.

En la práctica, desde nuevos métodos de interacción hasta mejoras en la accesibilidad, las posibilidades podrían ser considerables.

Por supuesto, el estudio en sí obviamente no menciona ningún producto o aplicación específica de Apple, pero sí dice lo siguiente:

Una posible aplicación práctica de nuestro marco es la interacción portátil entre humanos y computadoras. En
En escenarios como VR/AR y aplicaciones de control de prótesis, un dispositivo que se lleva en la muñeca debe inferir continuamente los gestos de las manos a partir de EMG para impulsar un avatar virtual o una mano robótica.

¿Qué es EMBridge?

EMBridge fue la forma que tuvieron los investigadores de cerrar la brecha entre las señales musculares EMG reales y los datos estructurados de la postura de la mano.

El modelo, entrenado utilizando un marco multimodal, se preentrenó primero con datos de EMG y de postura de la mano por separado.

A continuación, los investigadores alinearon las dos representaciones para que el codificador EMG pudiera aprender del codificador de pose. Esto permitió a EMBridge aprender a reconocer patrones de gestos a partir de señales EMG.

Una vez hecho esto, entrenaron el sistema usando reconstrucción de pose enmascarada, ocultando partes de los datos de pose y pidiendo al modelo que los reconstruyera usando solo la información extraída de las señales EMG.

El resultado, como explican los investigadores:

«Hasta donde sabemos, EMBridge es el primer marco de aprendizaje de representación multimodal que logra la clasificación de gestos de disparo cero a partir de señales EMG portátiles, lo que demuestra el potencial para el reconocimiento de gestos del mundo real en dispositivos portátiles. »

Para reducir los errores de entrenamiento causados ​​por gestos similares que se tratan como negativos, los investigadores enseñaron al modelo a reconocer cuándo las posturas representan configuraciones de manos similares, permitiéndole generar objetivos suaves para esas posturas en lugar de tratarlas como completamente independientes.

Esto ayudó a estructurar el espacio de representación del modelo, mejorando así su capacidad de generalizar gestos que nunca antes había visto.

Los autores evaluaron EMBridge en dos puntos de referencia, emg2pose y NinaPro, y descubrieron que superó consistentemente a los métodos existentes, particularmente en lo que respecta al reconocimiento de gestos nulo (o nunca antes visto). Lo más importante es que lo hizo con sólo el 40% de los datos de entrenamiento.

Una limitación importante señalada en el artículo es que el modelo se basa en conjuntos de datos que contienen señales EMG y datos sincronizados de la postura de la mano. Esto significa que su entrenamiento aún depende de conjuntos de datos especializados que pueden ser difíciles de recopilar.

Aún así, el estudio es interesante, particularmente en un momento en que el control de los dispositivos basados ​​en EMG parece estar en aumento.

Para obtener más detalles técnicos sobre EMBridge, incluidos sus componentes Q-Former, MPRL y CASCLe, sigue este enlace.

Para descubrir en Amazon

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.



Fuente