No hay escasez de rumores sobre los planes de Apple para publicar dispositivos portátiles equipados con cámaras. Y aunque es fácil cansarse de otra ola de equipos futuros alimentados por AI, un poderoso caso de uso a menudo se pierde en la baraja: la accesibilidad.
GuiónUn nuevo prototipo de investigación de la Universidad de Apple y Columbia no es portátil. De nuevo. Pero eso sugiere lo que AI podría desbloquear para los usuarios de ciego y de baja visión. Como explican los investigadores de la Universidad de Apple y Columbia:
Las personas ciegas o que tienen una visión baja (BLV) pueden dudar en viajar de forma independiente en entornos desconocidos debido a la incertidumbre en el paisaje físico. Si bien la mayoría de las herramientas se centran en la navegación in situ, aquellos que exploraron la asistencia antes del viaje generalmente proporcionan puntos de referencia e instrucciones rotativas, sin un contexto visual detallado. Las imágenes de Street View, que contienen información visual rica y tienen el potencial de revelar muchos detalles ambientales, sigue siendo inaccesible para las personas BLV.
Para tratar de llenar este vacío, los investigadores presentan este proyecto que combina los mapas de Api Apple con un gran modelo de lenguaje multimodal para proporcionar descripciones interactivas generadas por imágenes de vistas a la calle generadas A.
En lugar de simplemente contar con las instrucciones o la ubicación giratoria, los usuarios pueden explorar una carretera completa o casi explorar un bloque de vecindario por bloque, con descripciones a nivel de la calle que se adaptan a sus necesidades y preferencias específicas.
El sistema admite dos modos principales:
- Vista previa de rutalo que permite a los usuarios tener una idea de lo que cumplirán a lo largo de una ruta específica. Esto significa la calidad de las aceras, las intersecciones, los puntos de referencia visuales, qué parada de autobús, etc.
- Exploración virtualque es más abierto. Los usuarios describen lo que están buscando (como un área residencial tranquila con acceso a los parques), y la IA les ayuda a navegar en intersecciones y explorar en cualquier dirección de acuerdo con esta intención.
Detrás de escena, SCEEPScot basa un agente basado en GPT-4O en los datos de tarjetas reales y las imágenes panorámicas de mapas de Apple.
Simula la vista de un peatón, interpreta lo que es visible y publica texto estructurado, dividido en descripciones cortas, medianas o largas. La interfaz web, diseñada teniendo en cuenta los reproductores de pantalla, presenta todo esto en un formato totalmente accesible.
Las primeras pruebas mostraron deficiencias prometedoras, pero también importantes (y peligrosas).
El equipo de investigación realizó un estudio con 10 usuarios ciegos o de baja visión, la mayoría de los cuales eran competentes con los lectores de pantalla y trabajaban en tecnología.
Los participantes utilizaron la descripción general del camino y la exploración virtual, y dieron la experiencia de altas notas para la utilidad y la relevancia. El modo de exploración virtual se ha alquilado particularmente, porque muchos dijeron que les había dado acceso a la información que normalmente deberían preguntarle a otros.
Sin embargo, hubo importantes deficiencias. Si bien alrededor del 72% de las descripciones generadas fueron precisas, algunas incluían alucinaciones sutiles, en cuanto a afirmar que un pasaje peatonal tenía señales de audio cuando no lo hizo, o un evento erróneo de las señales de tráfico de la calle.
Y aunque la mayor parte de la información era estable con el tiempo, algunas descripciones hicieron referencia a detalles obsoletos o transitorios, como zonas de construcción o vehículos estacionados.
Los participantes también señalaron que el sistema a veces había hecho hipótesis, tanto en las capacidades físicas del usuario como en el entorno mismo. Varios usuarios han subrayado la necesidad de un lenguaje más objetivo y una mejor precisión espacial, especialmente para la navegación en el último medidor. Otros querían que el sistema pudiera adaptarse más dinámicamente a sus preferencias con el tiempo, en lugar de confiar en palabras clave estáticas.
SCESECSCOUT obviamente no es un producto de envío, y explora la colaboración entre un modelo multimodal en un lenguaje grande y los Api Apple Maps, en lugar de la navegación global en el sitio basada en la visión por computadora de tiempo real. Pero uno podría dibujar fácilmente una línea de uno a otro. De hecho, esto es alto hacia el final del estudio:
Los participantes expresaron un fuerte deseo de acceso real a tiempo real a las descripciones de la vista de la calle mientras caminaban. Han considerado aplicaciones que impulsan la información visual a través de auriculares de conducción ósea o modo de transparencia para proporcionar detalles relevantes a medida que se mueven. Como dijo P9, «¿Por qué no puede (las tarjetas) una capacidad integrada para ayudar (proporcionar) información detallada sobre lo que está trabajando».
Los participantes sugirieron usar incluso más corto, ‘Mini’ (P1), Descripciones caminando, destacando solo detalles críticos como puntos de referencia o condiciones de la acera. Descripciones más completas, Eso es decir Se pueden activar largas descripciones a pedido cuando los usuarios están ejecutando o alcanzando intersecciones.
Otro participante (P4) sugirió una nueva forma de interacción, en la que los usuarios «Podría apuntar el dispositivo en cierta dirección» Recibir descripciones a pedido, en lugar de tener que alinear físicamente la cámara de su teléfono para capturar el entorno. Esto permitiría a los usuarios estudiar activamente su entorno en tiempo real, lo que hace que la navegación sea más dinámica y reactiva.
Al igual que con otros estudios publicados en ARXIV, Escena: hacia el acceso al agente de IA con imágenes de visión de calle para usuarios ciegos no ha sido evaluado por compañeros. Sin embargo, esto realmente vale la pena si desea saber dónde inevitablemente la IA, los dispositivos portátiles y la visión por computadora inevitablemente se dirigen.