Un grupo de investigadores de Apple y la Universidad de Tel Aviv ha encontrado una manera de acelerar la generación de conversión de texto a voz basada en inteligencia artificial sin sacrificar la inteligibilidad. Así es como lo hicieron.
Un nuevo enfoque interesante para generar voz más rápido
En un nuevo artículo titulado Aceptación aproximada de los principios para la decodificación especulativa del habla.Los investigadores de Apple detallan un enfoque interesante para generar voz a partir de texto.
Aunque actualmente existen varios enfoques para generar voz a partir de texto, los investigadores se han centrado en modelos de síntesis de voz autorregresivos, que generan tokens de voz uno por uno.
Si alguna vez ha estudiado cómo funcionan la mayoría de los principales modelos de lenguaje, probablemente esté familiarizado con los modelos autorregresivos, que predicen el siguiente token en función de todos los tokens anteriores.
La generación de voz autorregresiva funciona generalmente de manera similar, excepto que los tokens representan fragmentos de audio en lugar de palabras o caracteres.
Y si bien esta es una forma efectiva de generar voz a partir de texto, este enfoque también crea un cuello de botella en el procesamiento, como explican los investigadores de Apple:
Sin embargo, para los LLM de voz que generan tokens acústicos, la coincidencia exacta de tokens es demasiado restrictiva: muchos tokens discretos son acústica o semánticamente intercambiables, lo que reduce las tasas de aceptación y limita las aceleraciones.
En otras palabras, los modelos de discurso autorregresivos pueden ser demasiado estrictos y a menudo rechazan predicciones que serían suficientemente buenas, simplemente porque no coinciden exactamente con el token que espera el modelo. Esto, a su vez, ralentiza todo.
Ingrese, grano grueso basado en principios (PCG)
En pocas palabras, la solución de Apple se basa en el principio de que muchos tokens diferentes pueden producir sonidos casi idénticos.
Con esto en mente, Apple agrupa tokens de voz que parecen similares, creando un paso de verificación más flexible.
En otras palabras, en lugar de tratar cada sonido posible como completamente distinto, el enfoque de Apple permite que el modelo acepte un token que pertenece al mismo grupo general de «similitud acústica».
De hecho, PCG se compone de dos modelos: un modelo más pequeño que ofrece rápidamente tokens vocales y un segundo modelo de juez más grande que verifica si estos tokens pertenecen al grupo acústico correcto antes de aceptarlos.
El resultado es un marco que adapta conceptos de decodificación especulativa (SD) a LLM que generan tokens acústicos, lo que acelera la generación del habla y al mismo tiempo garantiza la inteligibilidad.
Y hablando de resultados, los investigadores muestran que PCG aumentó la generación de voz en aproximadamente un 40%, una mejora significativa, dado que la aplicación de decodificación especulativa estándar a modelos de voz apenas mejora la velocidad.
Al mismo tiempo, PCG mantuvo las tasas de error de palabras más bajas que los métodos anteriores basados en la velocidad, conservó la similitud de los hablantes y superó los enfoques anteriores basados en la velocidad, logrando una puntuación de naturalidad de 4,09 (una calificación humana estándar de 1 a 5 en naturalidad del habla).
En una prueba de resistencia (Ablación en sustitución de tokens intragrupo), los investigadores reemplazaron el 91,4% de los tokens de voz con alternativas del mismo grupo acústico, y el audio aún se mantuvo, con solo un aumento de +0,007 en la tasa de error de palabras y una disminución de -0,027 en la similitud de los hablantes:
¿Qué podría significar PCG en la práctica?
Aunque el estudio no analiza lo que sus resultados podrían significar en la práctica para los productos y la plataforma de Apple, este enfoque podría ser relevante para futuras funciones de voz que necesitan equilibrar velocidad, calidad y eficiencia.
Es importante señalar que este enfoque no requiere entrenamiento del modelo objetivo, ya que implica un cambio en el tiempo de decodificación. En otras palabras, es un ajuste que se puede aplicar a los modelos de habla existentes en el momento de la inferencia, en lugar de requerir reentrenamiento o cambios arquitectónicos.
Además, PCG requiere recursos adicionales mínimos (sólo unos 37 MB de memoria para almacenar grupos de similitud acústica), lo que lo hace práctico para su implementación en dispositivos con memoria limitada.
Para obtener más información sobre PCG, incluidos detalles técnicos detallados sobre conjuntos de datos y contexto adicional sobre métodos de evaluación, sigue este enlace.



