Apple dejó caer un Nuevo modelo de IA en la cara abrazada Con un giro interesante. En lugar de escribir código como el LLM tradicional genera texto (de izquierda a derecha, de arriba a abajo), también puede escribir en orden y mejorar varias piezas a la vez.
El resultado es una generación de código más rápida, a un rendimiento que compite con los mejores modelos de codificación de código abierto. Así es como funciona.
Bits de queso
Aquí hay algunos conceptos (demasiado simplificados, en nombre de la eficiencia) que son importantes para entender antes de poder continuar.
Crianza
Tradicionalmente, la mayoría de los LLM han sido autosgresivos. Esto significa que cuando les hace algo, tratan con toda su pregunta, predicen el primer token para la respuesta, retiran la pregunta completa con el primer token, predicen el segundo token, etc. Esto hace que generen texto como la mayoría de nosotros leen: de izquierda a derecha, de arriba a abajo.
Temperatura
El LLM tiene un ajuste llamado temperatura que controla cuán aleatoria puede ser la salida. Durante el pronóstico del siguiente chorro, el modelo atribuye las probabilidades a todas las opciones posibles. Una temperatura más baja hace que sea más probable que elija el token más probable, mientras que una temperatura más alta le da más libertad para elegir menos probable.
Radiodifusión
Una alternativa a los modelos autogresivos son los modelos de difusión, que han sido utilizados con mayor frecuencia por modelos de imagen como la difusión estable. En una palabra, el modelo comienza con una imagen borrosa y ruidosa, y está eliminando iterativamente el ruido mientras tiene en cuenta la solicitud del usuario, dirigiéndola a algo que se parece cada vez más a lo que el usuario ha pedido.
Siempre con nosotros? ¡Excelente!
Recientemente, algunos modelos de idiomas importantes recurrieron a la arquitectura de difusión para generar texto, y los resultados fueron bastante prometedores. Si desea profundizar su operación, aquí hay un gran explicador:
¿Por qué te digo todo eso? Porque ahora puede ver por qué los modelos de texto basados en texto pueden ser más rápidos que los modelos autogresivos, ya que pueden principalmente (una vez más, una vez más, una vez más (una vez más, básicamente) Refina todo el texto en paralelo.
Este comportamiento es particularmente útil para la programación, donde la estructura global es más importante que la predicción del token lineal.
¡Uf! Lo hicimos. ¿Entonces Apple ha publicado un modelo?
Sí. Publicaron un modelo de código abierto llamado Diffucode-7B-CPGRPOque se basa en papel llamado Difucoder: Comprender y mejorar los modelos de difusión enmascarados para la generación de códigosLanzado el mes pasado.
El artículo describe un modelo que adopta un enfoque de difusión para la generación de código, pero con un giro:
«Cuando la temperatura de muestreo aumenta de 0.2 a 1.2 por defecto, el difucumer se vuelve más flexible en su generación de tokens, liberándose de limitaciones estrictas de izquierda a derecha»
Esto significa que al ajustar la temperatura, también puede comportarse más (o menos) como un modelo autogresivo. Esencialmente, las temperaturas más altas le dan más flexibilidad para generar tokens rotos, mientras que las temperaturas más bajas están más cerca de las estrictas de izquierda a derecha.
Y con una etapa de entrenamiento adicional llamada acoplada-GRPO, aprendió a generar un código de mejor calidad con menos pases. El resultado? Código que es más rápido de generar, en el mundo coherente y competitivo con algunos de los mejores modelos de programación de código abierto.
Construido sobre un código abierto LLM de Alibaba
Aún más interesante, el modelo de Apple se construye sobre Qwen2.5-7b, un modelo de base de código abierto de Alibaba. Alibaba primero refinó este modelo para una mejor generación de código (como Qwen2.5-coder-7b), luego Apple lo tomó e hizo sus propios ajustes.
Lo transformaron en un nuevo modelo con un decodificador basado en la difusión, como se describe en el papel difucoder, luego lo ajustaron nuevamente para seguir mejor las instrucciones. Una vez hecho, han formado otra versión utilizando más de 20,000 ejemplos de codificación cuidadosamente elegida.
Y todo este trabajo ha dado fruto. Diffucoder-7b-CPGRPO obtuvo un aumento del 4.4% en una referencia de codificación popular, y mantuvo su menor dependencia de la generación de código estrictamente de izquierda a derecha.
Por supuesto, hay mucho margen de mejora. Aunque el difucoder ha hecho mejor que muchos modelos de codificación basados en la difusión (y fue antes del aumento del 4.4% de Diffucoder-7b-CPGRPO), todavía no alcanza por completo el nivel de transmisión GPT-4 o Géminis.
Y aunque algunos han señalado que 7 mil millones de parámetros pueden ser limitantes, o que su generación basada en la difusión siempre se asemeja a un proceso secuencial, el punto más importante es el siguiente: poco en Petit, Apple ha establecido los conceptos básicos de sus esfuerzos de IA generativos con ideas bastante interesantes y nuevas.
¿Qué (o si?) Esto?) Esto realmente dará como resultado características y productos reales para usuarios y desarrolladores es otra historia.
AirPods ofrece en Amazon
FTC: utilizamos enlaces de afiliación de ingresos automáticos. Más.