📂 Categoría: AI,Tech,inworld,deepmind,startups,artificial-intelligence,generative-ai,voice,voice-ai,chatbots,eleven-labs,google,customer-service,emotions,ai,siri,exclusive | 📅 Fecha: 1777986384
🔍 En este artículo:
Inworld AI ha implementado un nuevo modelo de voz de IA diseñado para hacer que las conversaciones con las máquinas sean más humanas al comprender no solo lo que dicen los usuarios, sino también cómo lo dicen.
El último sistema de la startup con sede en Mountain View, Realtime TTS-2, analiza señales del habla como el tono, el ritmo y el tono para inferir el estado emocional del hablante en tiempo real. Luego ajusta dinámicamente su propia voz y entrega para crear interacciones más naturales y conscientes de las emociones (TTS significa texto a voz, un tipo de modelo de inteligencia artificial basado en voz).
A medida que los modelos de voz de IA se vuelvan más realistas, esto podría aumentar el uso y la participación. Aunque los modelos de texto, la codificación de IA y la generación de imágenes han tenido un gran éxito hasta ahora, hablar con modelos y chatbots es potencialmente una forma más natural de utilizar esta tecnología. Kylan Gibbs, director ejecutivo de Inworld, cree que resolver la capa emocional es fundamental para que esto suceda a escala.
«La conversación en tiempo real, como la que tenemos ahora, es la forma natural en que las personas interactúan», me dijo en una entrevista reciente. «Cuanto más te acercas a ello, más compromiso ves».
El lanzamiento marca un cambio de dirección para la compañía, que ha recaudado más de 100 millones de dólares de inversores como Founders Fund, Intel y Microsoft. El modelo anterior de Inworld ya estaba clasificado en la cima de los puntos de referencia de la industria en cuanto a calidad de voz, superando a competidores como Google y ElevenLabs. Pero Gibbs dijo que eso no era suficiente.
Hasta ahora, la mayoría de los principales modelos de voz de IA han sido diseñados para audiolibros, locuciones y contenido multimedia similar, según Gibbs, ex gerente de producto de DeepMind.
“Si hoy escuchas una voz de IA, suena como la de un humano, pero suena como un humano leyendo un guión y algo anda mal”, dijo. «Puede sonar bien, pero duele. Imagínense hablando con un audiolibro».
Esta desconexión entre realismo e interacción natural se convirtió en el siguiente objetivo de Inworld.
Para resolver este problema, TTS-2 combina varias funciones que normalmente no existen juntas en los sistemas de voz de IA. Por ejemplo, incluye la historia completa y el contexto de una conversación, por lo que una línea pronunciada después de un chiste llega de manera diferente a la misma línea pronunciada después de una mala noticia.
El nuevo modelo de voz también puede detectar señales emocionales del habla humana en tiempo real y actualizar continuamente lo que Inworld llama un “estado de usuario” y un “estado de agente” para guiar cómo responde la IA.
Una demostración en vivo
En una demostración en vivo exclusiva en la sede de Inworld en Silicon Valley, Gibbs me mostró el desempeño del TTS-2. En cuestión de segundos, el modelo de voz de la IA cambió entre varios estados diferentes mientras Gibbs hablaba e introducía diferentes temas y tonos.
En un momento, el modelo de voz de IA fue «empático, apologético y directo» al responder a un retraso en el servicio al cliente. Rápidamente progresó a «paciente, cálido y esclarecedor» y luego a «empático, servicial, rápido», dependiendo del contexto, el tema y la forma en que hablaba Gibbs.
Diversión ligera
Más adelante en la demostración en vivo, un personaje de IA llamado «Jason» ilustra cuán sutiles pueden ser estas respuestas. Después de que Gibbs hizo una broma intencionalmente inapropiada, la IA no la ignoró y respondió sin rodeos.
En cambio, dio una reacción cuidadosamente equilibrada: «Bueno, quiero decir, eso fue realmente efectivo. Definitivamente llamaste mi atención. No sé si lo llamaría gracioso, pero en cierto modo fue impresionante».
El tono transmitía una ligera diversión junto con una cortés desaprobación, un ejemplo del tipo de matiz que Inworld estaba buscando.
Gibbs dijo que este tipo de conciencia emocional ha estado en gran medida ausente en la IA de voz porque los sistemas existentes tratan el habla como una entrada de texto aislada. Por el contrario, TTS-2 está diseñado para interpretar una gama más amplia de señales, incluido el estilo de presentación y la prosodia (la forma en que se dice algo, en lugar de las palabras mismas).
La tecnología podría tener una amplia gama de aplicaciones, desde servicio al cliente hasta atención médica, educación e inteligencia artificial, dijo Gibbs.
Solo modelos y API
Inworld está posicionando el modelo como una infraestructura para desarrolladores en lugar de un producto de consumo, ofreciéndolo a través de una API que se conecta a los sistemas de inteligencia artificial existentes. Las API, o interfaces de programación de aplicaciones, son una forma común para que las aplicaciones compartan datos y se comuniquen.
Mientras que la startup de voz rival ElevenLabs está activa a nivel de aplicación con los clientes, Inworld brinda a los desarrolladores acceso a los modelos subyacentes y les brinda más libertad para crear sus propias aplicaciones.
Parte de la razón es que Gibbs quiere evitar competir con los clientes de Inworld. Y el auge de las herramientas de codificación de IA, como Claude Code de Anthropic y Codex de OpenAI, hace que el desarrollo de aplicaciones sea mucho más fácil, por lo que ahora hay menos valor para esta capa de la pila tecnológica, dijo Gibbs.
«Ahora sólo producimos modelos y API», añadió.
Suscríbase al boletín Tech Memo de BI aquí. Contáctame por correo electrónico a abarr@businessinsider.com.





:max_bytes(150000):strip_icc():format(jpeg)/david-hasslehoff-daughters-1-tout-78f5b9091a854cbeacef2572ba6b2aed.jpg?w=100&resize=100,75&ssl=1)



