Apple muestra qué tan rápido el M5 ejecuta LLM locales en MLX


Un nuevo artículo en el blog Machine Learning Research de Apple muestra cuánto ha mejorado el silicio Apple M5 con respecto al M4 cuando se trata de ejecutar LLM local. Aquí están los detalles.

un poco de contexto

Hace unos años, Apple lanzó MLX, que la compañía describe como «un marco matricial para el aprendizaje automático eficiente y flexible en el silicio de Apple».

En la práctica, mlx es un marco de código abierto que ayuda a los desarrolladores a crear y ejecutar modelos de aprendizaje automático de forma nativa en sus Apple Silicon Macs, respaldados por API e interfaces familiares para el mundo de la IA.

Aquí está Apple nuevamente en MLX:

MLX es un marco de matriz de código abierto que es eficiente, flexible y se adapta perfectamente al silicio de Apple. Puede utilizar MLX para una amplia variedad de aplicaciones que van desde simulaciones numéricas y computación científica hasta aprendizaje automático. MLX viene con soporte integrado para entrenamiento e inferencia de redes neuronales, incluida la generación de texto e imágenes. MLX facilita la generación de texto o el ajuste de modelos de lenguaje grandes en dispositivos Apple Silicon.

MLX aprovecha la arquitectura de memoria unificada de Apple Silicon. Las operaciones en MLX se pueden ejecutar en la CPU o GPU sin necesidad de mover memoria. La API sigue de cerca a NumPy y es familiar y flexible. MLX también ofrece paquetes de optimización y redes neuronales de nivel superior, así como transformaciones de funciones para la diferenciación automática y la optimización de gráficos.

Uno de los paquetes MLX disponibles en la actualidad es MLX LM, destinado a generar texto y refinar modelos de lenguaje en Apple Silicon Macs.

Con MLX LM, los desarrolladores y usuarios pueden descargar la mayoría de los modelos disponibles en cara de peluchey ejecutarlos localmente.

Este marco incluso admite la cuantificación, que es un método de compresión que permite ejecutar modelos grandes usando menos memoria. Esto conduce a una inferencia más rápida, que es esencialmente el paso en el que el modelo produce una respuesta a una entrada o mensaje.

M5 frente a M4

en su publicación de blogApple está mostrando las mejoras en el rendimiento de inferencia del nuevo chip M5, gracias a los nuevos aceleradores neuronales GPU del chip, que según Apple «proporcionan operaciones de multiplicación de matrices dedicadas, que son esenciales para muchas cargas de trabajo de aprendizaje automático».

Para ilustrar las ganancias de rendimiento, Apple comparó el tiempo que tardaron varios modelos abiertos en generar el primer token después de recibir un mensaje en una MacBook Pro M4 y M5, usando MLX LM.

O, como dice Apple:

Evaluamos los modelos Qwen 1.7B y 8B, en precisión nativa BF16, así como los modelos Qwen 8B y Qwen 14B cuantificados a 4 bits. Además, comparamos dos combinaciones de expertos (MoE): Qwen 30B (3B parámetros activos, cuantificados a 4 bits) y GPT OSS 20B (en precisión nativa MXFP4). La evaluación se realiza con mlx_lm.generate y se informa en términos de tiempo hasta la generación del primer token (en segundos) y velocidad de generación (en términos de token/s). En todas estas pruebas, el tamaño del mensaje es 4096. La velocidad de generación se evaluó generando 128 tokens adicionales.

Aquí están los resultados:

Un detalle importante aquí es que la inferencia LLM adopta enfoques diferentes para generar el primer token, en comparación con cómo funciona internamente para generar tokens posteriores. En pocas palabras, la primera inferencia de token está relacionada con la computación, mientras que la siguiente generación de token está relacionada con la memoria.

Por lo tanto, Apple también evaluó la velocidad de generación de 128 tokens adicionales, como se describe anteriormente. Y, en general, el M5 mostró una mejora de rendimiento del 19-27% con respecto al M4.

Aquí está Apple sobre estos resultados:

En las arquitecturas que probamos en este artículo, el M5 ofrece una mejora de rendimiento del 19 al 27% en comparación con el M4, gracias a su mayor ancho de banda de memoria (120 GB/s para el M4, 153 GB/s para el M5, o un 28% más). En cuanto al uso de memoria, la MacBook Pro de 24 GB puede acomodar fácilmente una precisión BF16 de 8 GB o un MoE cuantificado de 4 bits y 30 GB, manteniendo la carga de trabajo de inferencia por debajo de 18 GB para ambas arquitecturas.

Apple también comparó la diferencia de rendimiento en la generación de imágenes y dijo que el M5 hizo el trabajo 3,8 veces más rápido que el M4.

Puedes leer el artículo completo en el blog de Apple. aquíy puedes aprender más sobre MLX aquí.

Ofertas de accesorios en Amazon

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.



Fuente