Los investigadores de Apple enseñaron una LLM a predecir tokens hasta 5 veces más rápido


Un nuevo documento de búsqueda de Apple detalla una técnica que acelera las respuestas del modelo de idioma importante, al tiempo que preserva la calidad de la producción. Aquí están los detalles.

Bits de queso

Tradicionalmente, el LLM genera un token al mismo tiempo. Esto es lento porque cada paso depende de todos los anteriores para mantener la salida coherente y precisa.

Si el modelo escribe una oración como «The cat is black«, Predice cada token en secuencia. Después de escribir»The cat is«, Examina todo lo que hasta ahora (más la solicitud del usuario y los modelos que ha aprendido durante la capacitación) para calcular la probabilidad de todos los siguientes tokens posibles en su vocabulario. Esto se llama autoregresión.

En este escenario, podría clasificar opciones como black, tall, sleeping, grumpy, fluffy, skinny, purring, white, tired, playing, missing, meowing, coldY así sucesivamente, elija el que mejor se adapte al contexto.

Lo que hizo Apple

En el estudio Su LLM conoce el futuro: descubra su potencial de predicción de múltiples tokenEl equipo de Apple descubrió que incluso si estos modelos generalmente se forman para predecir el siguiente token, siempre tienen información útil sobre varios tokens por venir.

Al confiar en esto, han desarrollado un marco para la «predicción de múltiples token» (MTP) que permite que el modelo produzca varios tokens a la vez.

Si se parece un poco al estudio del modelo de difusión que cubrimos hace unas semanas, no está tan lejos. Aunque el proceso de capacitación y las tecnologías subyacentes difieren, los dos enfoques apuntan a acelerar la inferencia y lograr el resultado más rápido que con el enfoque de una vez.

En este estudio en particular, los investigadores insertaron tokens especiales de «máscara» en indicaciones, que son esencialmente espacios reservados para las palabras venideras.

Por ejemplo, «el gato es <MASK1> <MASK2>«Podría llenarse como»very fluffy«En un solo paso. Como él escribe, el modelo especula en varias palabras que vengan al mismo tiempo, cada palabra se verifica inmediatamente en relación con lo que ha producido la decodificación autogresiva estándar. Si una suposición no pasa el cheque, vuelve a precisión regular.

Durante las pruebas con el modelo de código abierto TULU3-8B, Apple formó el modelo para predecir especuladamente 8 tokens adicionales, y el promedio informado acelera de 2 a 3 × a través de tareas generales, como preguntas y respuestas y el CAT, y hasta 5 × para áreas más predecibles como codificación y matemáticas. Las ganancias llegaron con «sin degradación de la calidad de la generación, gracias a una técnica simple pero efectiva que llamamos la adaptación cerrada de Lora».

Puedes leer el documento completo en arxiv.

Ofertas de Mac limitadas en Amazon

FTC: utilizamos enlaces de afiliación de ingresos automáticos. Más.



Fuente