Una nueva actualización de voz para ChatGPT ha hecho que la interacción con el chatbot sea mucho más flexible que antes, y creo que este es un ejemplo de una de las cosas clave que podemos esperar de la nueva Siri.
Aunque el cambio de OpenAI puede parecer relativamente menor a primera vista, ya puedo ver que transforma por completo la experiencia de usar ChatGPT…
Texto a voz
Cuando ChatGPT se lanzó por primera vez, era solo de texto. Posteriormente, ampliar la función a las interacciones de voz tuvo dos impactos.
En primer lugar, hizo que el chatbot pareciera aún más imitar a un ser humano. Este es un tema completo, pero estoy de acuerdo. David Winer Y Juan Gruber pensando que este no debería ser el objetivo de un chatbot. (OpenAI al menos ha retrocedido desde una versión que priorizaba la usabilidad sobre la precisión).
En segundo lugar, mejoró la usabilidad. Obviamente, es más rápido y conveniente simplemente hablar con una IA que escribir y leer respuestas escritas, al menos para ciertos tipos de interacción.
Sin embargo, hay ocasiones en las que la interacción visual y de texto es más apropiada, y si bien fue genial tener la opción, podría ser frustrante cuando podías hacer el 95% del trabajo con voz, pero luego tenías que cambiar al texto para cosas como pedirle a ChatGPT que creara una imagen.
Esto era especialmente cierto porque los dos modos eran distintos y podías sentir como si estuvieras interactuando con dos modelos ChatGPT completamente separados: uno de voz y el otro de texto.
integrar los dos
La última actualización de ChatGPT integra interacciones de texto y voz.
Ahora puede usar ChatGPT Voice directamente en el chat, no se necesita un modo separado. Puede hablar, ver aparecer las respuestas, ver mensajes anteriores y ver elementos visuales como imágenes o mapas en tiempo real.
Sospecho que una de las cosas que le está tomando a Apple más tiempo de lo esperado es proporcionar exactamente este tipo de integración. De hecho, la compañía está haciendo lo contrario: Siri se lanzó como un servicio sólo de voz y Apple Intelligence ahora ha agregado funciones basadas en texto, como el resumen de correo electrónico.
OpenAI parece tener algunos de los desafíos para lograr este tipo de integración. En mis primeras pruebas a veces funciona muy bien y otras no. Por ejemplo, experimenté esto cuando fingió mostrarme una tarjeta cuando no lo hizo.
Este es el futuro de la nueva Siri
Si Siri va a cumplir todas las promesas que hace Apple, tendrá que hacer precisamente eso y más.
Necesitaremos poder darle instrucción vocal y permitirle no sólo dar respuestas orales, sino también manipular texto e imágenes.
Además, tendrá que actuar como un agente inteligente a la hora de interactuar con nuestras aplicaciones instaladas. Le daremos una instrucción como «Reserve el primer vuelo mañana por la mañana desde Heathrow a Las Vegas» y utilizará cualquier aplicación de viaje que hayamos instalado para completar esta tarea.
Pero Apple podría acabar subcontratando
Ofrecer estas capacidades no es una tarea fácil. Aún no estoy decidido a determinar qué probabilidades hay de que Apple se ponga al día no sólo con el nivel actual de los chatbots de IA, sino también con el nivel en el que se encuentran actualmente. será en el momento del lanzamiento del nuevo Siri. Creo que es muy probable que Apple tenga que subcontratar sus capacidades de IA a otras empresas.
Personalmente, no me importa si la tecnología utilizada es desarrollada por Apple o delegada a la tecnología de IA proporcionada por OpenAI, Google u otra persona. lo que yo HACER cuidar es dos cosas.
En primer lugar, Apple protege nuestra privacidad a través de interfaces personalizadas con chatbots de terceros, tal como lo hace hoy con ChatGPT. Cuando hacemos una pregunta que Siri no puede responder y vuelve a ChatGPT, OpenAI nunca utiliza nuestras interacciones con fines de capacitación, porque la privacidad es parte de lo que Apple acordó con la empresa.
En segundo lugar, la rapidez con la que Apple puede llevar esta inteligencia a sus dispositivos. El año que viene es absolutamente el límite de cuánto tiempo podemos esperar. Si cumplir con este plazo significa que lo que hay bajo el capó del nuevo Siri es una versión personalizada de ChatGPT, Gemini o algo más, por mí está totalmente bien.
¿Cuál es tu opinión sobre esto? Por favor comparte tus pensamientos en los comentarios.



