El nuevo modelo de lenguaje de Apple puede escribir textos largos increíblemente rápido


En un nuevo estudio, los investigadores de Apple demuestran un modelo de transmisión que puede escribir hasta 128 veces más rápido que sus homólogos. Así es como funciona.

Las partes cursis

Esto es lo que necesita saber para este estudio: Los LLM como ChatGPT son modelos autorregresivos. Generan texto secuencialmente, un token a la vez, teniendo en cuenta tanto el mensaje del usuario como cualquier token generado previamente.

A diferencia de los modelos autorregresivos, existen modelos de difusión. Generan múltiples tokens en paralelo y los refinan en varios pasos iterativos hasta que toma forma la respuesta completa.

Finalmente, una variación de los modelos de difusión son los modelos de coincidencia de flujo, que esencialmente omiten el proceso iterativo de los modelos de difusión y aprenden a generar el resultado final de una sola vez.

Para obtener más información sobre cómo funcionan los modelos de transmisión, consulte este artículo sobre el modelo de codificación basado en transmisión de Apple. Y para obtener más información sobre los modelos de coincidencia de flujo, consulte este artículo sobre el modelo de coincidencia de flujo de Apple para el plegamiento de proteínas.

El nuevo estudio de Apple

En un estudio publicado hoy, titulado «FS-DFM: generación rápida y precisa de textos largos con modelos de lenguaje de transmisión en solo unos pocos pasos”, investigadores de Apple y la Universidad Estatal de Ohio proponen un nuevo modelo llamado Few-Step Discrete Flow-Matching, o FS-DFM.

En el estudio, los investigadores demuestran que FS-DFM fue capaz de escribir pasajes completos con sólo ocho ciclos rápidos de refinamiento, igualando la calidad de los modelos de difusión que requirieron más de mil pasos para lograr un resultado similar.

Para lograr esto, los investigadores adoptan un interesante enfoque de tres pasos: primero, el modelo se entrena para manejar diferentes presupuestos de iteración de refinamiento. Luego, utilizan un modelo guía de «maestro” para ayudarlos a realizar actualizaciones más amplias y precisas en cada iteración sin «exceder” el texto previsto. Y finalmente, cambian la forma en que funciona cada iteración para que el modelo pueda alcanzar el resultado final en menos pasos y más regulares.

En comparación con modelos de difusión más grandes, FS-DFM tuvo un buen desempeño en dos parámetros importantes: perplejidad y entropía.

En pocas palabras, la puntuación de perplejidad es una medida estándar de la calidad del texto en modelos de lenguaje. Cuanto menor es la perplejidad, más preciso y natural parece el texto.

En cuanto a la entropía, esencialmente mide la confianza con la que el modelo selecciona cada palabra. En la práctica, si la entropía es demasiado baja, el texto puede volverse repetitivo o predecible, pero si es demasiado alta, puede empezar a parecer aleatorio o inconsistente.

En comparación con el modelo de difusión Dream con 7 mil millones de parámetros y el modelo de difusión LLaDA con 8 mil millones de parámetros, las variantes FS-DFM con 1,7, 1,3 y 0,17 mil millones de parámetros lograron consistentemente una menor perplejidad y mantuvieron una entropía más estable en todos los recuentos de iteraciones.

Dados los resultados y la promesa de este método, así como la falta de modelos y estudios similares disponibles, los investigadores también dijeron que «planean publicar código y puntos de control del modelo para facilitar la reproducibilidad y la investigación continua».

Si desea profundizar en los métodos de Apple y detalles de implementación más específicos de los modelos de Apple, asegúrese de consultar el documento completo en arXiv. Presenta varios ejemplos de rendimiento, como este, que codifican con colores la iteración en la que se cambió cada palabra por última vez:

Figura 9: Cronograma de generación a nivel de token. El texto mostrado es la muestra final; el contexto de cada
el token codifica la etapa de su última modificación utilizando ocho colores claros (inicio → fin). Aparecen tokens inicialmente estabilizados
en los primeros tonos, mientras que las modificaciones posteriores tienden hacia los tonos finales, aportando refinamientos localizados y convergencia global.
fácil de ver. Tenga en cuenta que muchas fichas son amarillas, lo que indica que se predijeron al principio del proceso. Este
se debe al escalar acumulativo (a diferencia de la Figura 4).

Busque «FS-DFM: generación de texto largo rápida y precisa con modelos de lenguaje de difusión en unos pocos pasos» en arXiv.

Ofertas de accesorios en Amazon

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.



Fuente