Apple ha entrenado a un LLM para comprender efectivamente el video de forma larga


Los investigadores de Apple han desarrollado una versión adaptada del modelo Slowfast-Llava que supera los modelos más grandes para un análisis y comprensión largos. Esto es lo que significa.

Bits de queso

Muy Básicamente, cuando se forma un LLM para comprender también el video, aprende a dividir los videos en marcos, para aplicar una visión de la computadora para extraer características visuales, para analizar cómo estas características cambian con el tiempo y para alinear todo esto con el lenguaje para que pueda describir o razonar en el video en forma de texto.

Una forma muy ineficaz de hacerlo es analizar cada cuadro de un video, lo que crea una cantidad abrumadora de información duplicada, ya que la mayoría de los ejecutivos rara vez incluyen cambios significativos de uno a otro.

Con esta abrumadora cantidad de información duplicada a la mano, es muy fácil soplar frente a la ventana de contexto LLM, que es la cantidad máxima de información que puede mantener de inmediato. Una vez que un LLM excede su ventana de contexto, para que continúe una conversación, deja de tener en cuenta los tokens más antiguos para dejar espacio para otros nuevos porque predice cada token nuevo.

Por supuesto, hay formas más efectivas de formar video LLM (NVIDIA publicó recientemente un papel interesante Sobre esto), pero es la idea general de tener en cuenta el estudio de Apple.

Estudio de Apple

Como explican los investigadores de Apple en el periódico Slowfast-Llava-1.5: Una familia de modelos de lengua de lengua de video picado para una comprensión de video formador de larga data::

«Grandes modelos de video de idiomas (LLM) integran la percepción del video en LLM preformulados para procesar videos y generar respuestas a los controles de los usuarios. Aunque se han realizado progresos significativos, quedan limitaciones notables en el video LLM existente».

Las limitaciones, según ellos, son triples:

  • Los modelos existentes tienden a confiar fuertemente en ventanas de contexto largo y una gran cantidad de cuadros, que es ineficaz y no fácilmente transferible a modelos más pequeños;
  • La mayoría de ellos requieren tuberías de entrenamiento con varias etapas complejas (a menudo utilizando conjuntos de datos privados) difíciles de reproducir;
  • Muchos están optimizados solo para tareas de video, lo que limita su utilidad como modelos para uso general que también incluyen imágenes.

Para responder a estas limitaciones, Apple examinó por primera vez a Slowfast-Llava, un modelo de código abierto que ya había mostrado resultados prometedores al combinar espacio e índices temporales a través de una configuración bidireccional: un flujo lento que examina menos cuadros en detalles más altos para capturar lo que está en la escena, y un flujo rápido que examina más marcos en los detalles más bajos para seguir el tiempo.

En primer lugar, Apple estableció Lava Llowfast a las imágenes, para crear capacidades generales de razonamiento visual. Luego, fue capacitado conjuntamente en imágenes y videos (conjuntos de datos públicos), para aprender la estructura temporal sin sacrificar la comprensión de la imagen.

El resultado fue lento LAVA-LAVA-1.5 (o SF-LAVA-1.5), una familia de modelos en las Escalas de Parámetros 1B, 3B y 7B, que logra superar modelos mucho más importantes en una variedad de tareas de video, a veces «por márgenes importantes», como lo notaron los propios investigadores.

De hecho, en referencias de video largas como LongVideObench y MLVU, el modelo Apple establece nuevos resultados de corte en todos los tamaños del modelo, incluida su versión 1B más pequeña.

Además, el modelo también supera una de las tres deficiencias observadas por los investigadores, y también funciona bien en tareas de imagen, incluidas referencias de conocimiento, razonamiento matemático, OCR y escenarios ricos en texto.

El equipo incluso probó varias estrategias de compresión de video, pero descubrió que su configuración ha concluido el mejor equilibrio entre la velocidad, la precisión y el número de tokens.

Sin embargo, hay límites

Con SF-LLAVA-1.5, los investigadores de Apple decidieron que el modelo tendría una longitud de entrada máxima de 128.

Esto significa que, ya sea analizar un clip que dure unos minutos o unas pocas horas, siempre es máximo a 128 imágenes, con 96 cuadros espaciados uniformemente seleccionados para el flujo rápido, y 32 cuadros uniformemente espaciados seleccionados para un flujo lento.

En este espíritu, los investigadores dicen que:

«Este enfoque puede perderse algunos marcos clave en videos largos y engañar al modelo sobre la velocidad de leer un video. (…) El rendimiento de SF-LLAVA-1.5 puede mejorarse aún más ajustando todos los parámetros, incluido el codificador visual. Sin embargo, hemos encontrado que no es un trivial para estudios largos para estudios futuros que puedan explorar la integración de toda la memoria de la GPU, como los valores de activación. Bp. Bp.». «.». «.». «.». «.». «.». «.»

Dicho esto, el enfoque de Apple lo convirtió en un modelo de vanguardia, con las habilidades adicionales que se formarán exclusivamente en conjuntos de datos públicos. SF-LLAVA-1.5 es ahora un modelo de código abierto disponible en Girub Y RostroY puedes encontrar el estudio completo en arxiv.

Aquí hay algunos ejemplos del modelo en acción:

Los límites de la hierba de aplono funcionan en Amazon

FTC: utilizamos enlaces de afiliación de ingresos automáticos. Más.



Fuente