Nos guste o no, no hay vuelta atrás: las aplicaciones y los sistemas operativos gravitarán gradualmente hacia las interacciones de voz.
No obligatorio, pero sí inevitable.
Pero aquí está la cuestión: ninguno de los argumentos que voy a exponer significa que usted será fortaleza hablar con sus dispositivos en contra de su voluntad, ni que la humanidad esté forjando su camino sin pensar hacia un futuro en el que cada espacio compartido públicamente estará inevitablemente lleno de una cacofonía de nerds excesivamente dependientes y amantes de la IA.
La GUI no desaparecerá, al igual que la calculadora no desapareció después del lanzamiento de Lotus 1-2-3. De hecho, incluso hoy en día todavía puedes comprar un ábaco si quieres. Algunos son realmente bastante caros..
Pero en este punto, es absolutamente inevitable que los desarrolladores de aplicaciones y sistemas operativos opten cada vez más por las interacciones de voz.
Y hay buenas razones para ello, la más obvia es la accesibilidad.
Con esto, no me refiero sólo a usuarios que no pueden interactuar físicamente con sus dispositivos, aunque eso en sí mismo es más que fantástico. También me refiero a usuarios que no son tan conocedores de la tecnología como usted, pero que tienen las mismas necesidades al intentar navegar por teléfonos, computadoras y plataformas que parecen funcionar sin esfuerzo para todos.
Y si su reacción instintiva es percibir a estos usuarios como vagos, o algo así, lamento decírselo, pero se está perdiendo la esencia de la promesa de la informática moderna.
Se supone que los avances tecnológicos reducirán las barreras de entrada y ayudarán a las personas a llegar a donde quieran, independientemente de su nivel de familiaridad con todo, desde Terminal hasta Safari.
De hecho, gran parte de la existencia de Apple se basa en este principio, aunque sus líderes a veces parezcan olvidarlo.
hola computadora
Dicho esto, he aquí otra razón importante por la que un enfoque basado en la voz es inevitable: la tecnología subyacente necesaria para que funcione es Finalmente se pone bueno.
Sí, todos los LLM todavía cometen errores estúpidos, y es probable que siempre los hagan, siempre que se basen en enfoques autorregresivos actuales basados en Transformer.
Pero las empresas, los laboratorios de inteligencia artificial de vanguardia e incluso los desarrolladores independientes están aprendiendo a solucionar estas limitaciones o recurriendo a arquitecturas totalmente diferentesalgunos de los cuales son muy prometedores.
Durante el año pasado, se lograron avances significativos en el área de las interfaces de voz, incluidas herramientas como Wispr y Speechify, que han experimentado un ritmo de adopción cada vez más rápido.
Según Tanay Kothari, fundador y director ejecutivo de Wispr Flow, sus usuarios eventualmente llegan a un punto en el que la voz representa aproximadamente el 75% de toda la entrada al producto. Y entre los usuarios maduros, el uso del teclado cae a menos del 5%.
Y me comeré el sombrero si no trabajan en las capacidades apropiadas del agente para acompañar sus herramientas de dictado. De hecho, Speechify ya se está moviendo claramente en esta dirección.
Tampoco olvidemos el reciente tsunami provocado por OpenClaw, verrugas y todolo que desbarató por completo lo que se esperaba que los agentes autónomos pudieran hacer en un futuro próximo. De hecho, muchos usuarios confían en plataformas como ElevenLabs para hablar en voz alta con sus agentes, algunos de los cuales han visto la API de ElevenLabs implementada de forma proactiva por Garra abierta sí mismo.
Cualquiera que sepa de qué habla le dirá lo extraordinario que es, De nuevoverrugas y todo.
Los avances en este frente se están acelerando
Y así de rápido están cambiando las cosas: comencé a escribir este artículo hace un tiempo, antes de que OpenClaw se convirtiera en lo que es hoy.
Originalmente escribí:
«(…) no pasará mucho tiempo antes de que las aplicaciones y los sistemas operativos dependan de marcos autónomos, donde los usuarios simplemente dicen lo que quieren, y la IA gestiona el significado, rastrea los pasos y ejecuta esa acción en aplicaciones listas para ser agentes en nombre del usuario».
Resulta que el En realidad este no fue el caso.
Originalmente, también tenía la intención de concluir el texto hablando de cosas como MCP antrópicoasí como el de Apple Intenciones de la aplicaciónpara ilustrar cómo se estaban implementando los elementos que permitirían interfaces listas para voz. Incluso iba a sugerir que podríamos ver algunas novedades sobre esto el próximo mes de junio en la WWDC.
Ahora, aunque sigo creyendo que podría Veremos más funciones, API y ofertas orientadas a la voz en junio, incluso la idea de que dependerán del desarrollador está empezando a parecer miope u obsoleta.
Tal vez estoy recordando mal los detalles, pero creo que fue John Gruber hablando de cómo en algún lugar, tal vez en la Universidad de Drexel, finalmente hicieron el camino que la gente cavó en el césped porque era más corto que el camino que habían diseñado los arquitectos.
Realmente creo que, para muchos usuarios, la voz es el camino más corto.
Ya sea enviando una consulta en un iPhone o Mac y obteniendo a cambio un acceso directo avanzado, modificando fotos, buscando y editando documentos o incluso solicitando flujos de trabajo de varios pasos entre aplicaciones, está cada vez más claro que a medida que la tecnología se pone al día, la interfaz que la mayoría de los usuarios encontrarán más fácil de navegar no es una interfaz en absoluto. O mejor dicho, el que la humanidad ha ido afinando desde el primer gruñido.
Dicho esto, todavía odio que la gente me envíe mensajes de voz.


