El nuevo modelo, llamado VSSFlow, aprovecha una arquitectura creativa para generar sonido y voz con un único sistema unificado, con resultados líderes en la industria. Lihat juga pdf view. Mire (y escuche) algunas demostraciones a continuación.
el problema
Actualmente, la mayoría de los modelos de vídeo y sonido (es decir, modelos entrenados para generar sonidos a partir de vídeos mudos) no son muy eficaces para generar voz. Del mismo modo, la mayoría de los modelos de conversión de texto a voz no generan sonidos ajenos al habla porque están diseñados para un propósito diferente.
Además, los intentos anteriores de unificar las dos tareas a menudo se basan en la suposición de que el entrenamiento conjunto degrada el rendimiento, lo que lleva a configuraciones que enseñan el habla y el sonido en etapas separadas, añadiendo así complejidad al proceso.
Ante este escenario, tres investigadores de Apple, junto a seis investigadores de la Universidad Renmin de China, desarrollaron VSSFlujoun nuevo modelo de IA capaz de generar efectos de sonido y voz a partir de vídeo silencioso en un solo sistema.
Además, la arquitectura que desarrollaron funciona de tal manera que el entrenamiento del habla mejora el entrenamiento del sonido y viceversa, en lugar de interferir entre sí.
la solucion
En pocas palabras, VSSFlow aprovecha varios conceptos de la IA generativa, incluida la conversión de transcripciones en secuencias de fonemas simbólicos y el aprendizaje de reconstruir el sonido a partir del ruido con coincidencia de flujo, que es lo que hemos cubierto aquí, esencialmente entrenando el modelo para comenzar de manera eficiente a partir de ruido aleatorio y obtener la señal deseada.
Todo esto está integrado en una arquitectura de 10 capas que mezcla señales de video y transcripción directamente en el proceso de generación de audio, lo que permite que el modelo maneje tanto efectos de sonido como voz dentro de un solo sistema.
Quizás lo más interesante sea que los investigadores señalan que el entrenamiento conjunto del habla y el sonido rendimiento mejorado en ambas tareasen lugar de poner a los dos en competencia o degradar el desempeño general de una u otra tarea.
Para entrenar VSSFlow, los investigadores alimentaron al modelo con una combinación de videos silenciosos combinados con sonidos ambientales (V2S), videos silenciosos parlantes combinados con transcripciones (VisualTTS) y datos de texto a voz (TTS), lo que le permitió aprender efectos de sonido y diálogos hablados juntos en un único proceso de entrenamiento de extremo a extremo.
Es importante destacar que notaron que VSSFlow no era capaz de generar automáticamente audio de fondo y diálogo hablado al mismo tiempo en una sola salida.
Para lograr esto, ajustaron su modelo ya entrenado en un gran conjunto de ejemplos sintéticos en los que se mezclaban el habla y los sonidos ambientales, de modo que el modelo aprendiera cómo deberían sonar ambos simultáneamente.
Poniendo VSSFlow a trabajar
Para generar sonido y voz a partir de un vídeo silencioso, el modelo comienza con ruido aleatorio y utiliza señales visuales muestreadas del vídeo a 10 fotogramas por segundo para dar forma a los sonidos ambientales. Al mismo tiempo, una transcripción de lo dicho proporciona indicaciones precisas de la voz generada.
Cuando se probó con modelos de tareas específicas diseñados solo para efectos de sonido o solo para voz, VSSFlow arrojó resultados competitivos en ambas tareas, liderando en varias métricas clave a pesar de usar un único sistema unificado.
Los investigadores han publicado varias demostraciones de resultados de generación conjunta de sonido, voz y (a partir de vídeos de Veo3), así como comparaciones entre VSSFlow y varios modelos alternativos. Puede ver algunos de los resultados a continuación, pero asegúrese de dirigirse al página de demostraciones para verlos a todos.
Y aquí hay algo realmente interesante: investigadores Código fuente abierto de VSSFlow en GitHuby también estamos trabajando para ampliar los pesos del modelo. Además, trabajan para proporcionar una demostración de inferencia.
En cuanto a lo que podría venir después, los investigadores dijeron:
Este trabajo presenta un modelo de flujo unificado que integra tareas de vídeo a sonido (V2S) y de texto a voz visual (VisualTTS), estableciendo un nuevo paradigma para la generación de voz y sonido condicionado por vídeo. Nuestro marco demuestra un mecanismo eficiente de agregación de condiciones para integrar condiciones de voz y video en la arquitectura DiT. Además, revelamos un efecto de refuerzo mutuo del aprendizaje conjunto del sonido y el habla a través del análisis, destacando el valor de un modelo de generación unificado. Para futuras investigaciones, varias direcciones merecen una mayor exploración. En primer lugar, la escasez de datos de vídeo, voz y sonido de alta calidad limita el desarrollo de modelos generativos unificados. Además, desarrollar mejores métodos de representación del sonido y del habla que puedan preservar los detalles del habla manteniendo dimensiones compactas es un desafío futuro crucial.
Para obtener más información sobre el estudio titulado «VSSFlow: Unificación de la generación de voz y sonido condicionado por vídeo mediante el aprendizaje conjunto”, sigue este enlace.
Ofertas de accesorios en Amazon
FTC: utilizamos enlaces de afiliados automáticos que generan ingresos. Más.


