Apple Study: LLMS también se beneficia de una vieja consejo de productividad


En un nuevo estudio coescrito por los investigadores de Apple, un modelo de lenguaje grande de código abierto (LLM) vio mejoras de rendimiento importantes después de ser invitado a verificar su propio trabajo utilizando una simple consejo de productividad. Aquí están los detalles.

Un pequeño contexto

Una vez que se ha formado un LLM, su calidad generalmente es refinada por una etapa posterior a la capacitación conocida como aprendizaje para fortalecer la retroalimentación humana (RLHF).

Con RLHF, cada vez que un modelo da una respuesta, los labelios humanos pueden darle un impulso, que lo recompensa, o un pulgar hacia abajo, lo que lo penaliza. Con el tiempo, el modelo aprende qué respuestas tienden a aprovechar más los pulgares, y su utilidad general mejora en consecuencia.

Parte de esta fase posterior a la capacitación está vinculada a un área más amplia llamada «Alineación», que explora los métodos para que la LLM se comporte tanto útil como segura.

Un modelo mal alineado podría, por ejemplo, aprender a alentar a los humanos a darle un impulso produciendo salidas que parezcan correctas en la superficie, pero que realmente no resuelven la tarea.

Hay, por supuesto, múltiple Métodos para mejorar la fiabilidad y la alineación de un modelo durante las etapas de pretrabra, entrenamiento y posterior a la capacitación. Pero para el propósito de este estudio, respetemos RLHF.

Estudio de Apple

En el estudio, bien derecho Las listas de control son mejores que los modelos de recompensa para alinear los modelos de idiomas, Apple Ofrece un esquema de aprendizaje de fortalecimiento basado en la lista de control, llamado aprendizaje de fortalecimiento de los comentarios de la lista de control (RLCF).

RLCF marca las respuestas en una escala de 0 a 100 para la forma en que satisfacen cada elemento en la lista de control, y los resultados iniciales son bastante prometedores. Como explican los investigadores:

«Comparamos RLCF con otros métodos de alineación aplicados a una educación sólida de acuerdo con el modelo (QWEN2.5-7B-Instructo) en cinco Benchmarks-RLCF en gran parte estudiados es el único método para mejorar el rendimiento en cada referencia, incluido un aumento de 4 puntos de la tasa de satisfacción dura en SecuteBench, un aumento de 6 puntos en el Infobench y una tasa de victorias en Arena. necesidades. «»

Este último bit es particularmente interesante con respecto a los asistentes alimentados por AI, que necesariamente se convertirá en la interfaz subyacente estándar a través de la cual millones de usuarios interactuarán con sus dispositivos en el futuro.

Investigadores, una vez más:

Los modelos de idioma deben seguir las instrucciones del usuario para ser útiles. Si bien el público en general incorpora asistentes basados ​​en modelos lingüísticos en su finalización de tareas diarias, esperamos que los modelos de idiomas puedan seguir fielmente las solicitudes de los usuarios. Si bien los usuarios están desarrollando una mayor confianza en la capacidad de los modelos para responder a solicitudes complejas, estos modelos reciben cada vez más instrucciones ricas y en varios pasos que requieren especial atención a las especificaciones.

Genere la lista de control correcta

Otro aspecto particularmente interesante del estudio es cómo Se crea cada lista de control y cómo se asignan los pesos de importancia entre cada elemento.

Esto se logra, por supuesto, con la ayuda de un LLM. Según el trabajo de estudio anterior, los investigadores de Apple han generado «listas de control para 130,000 instrucciones (…) para crear un nuevo conjunto de datos, WildChecklists. Para generar respuestas candidatas para nuestro método, utilizamos Qwen2.5-0.5b, Qwen2.5-1.5b, Qwen2.5-3b y Qwen2.5-7b.

Básicamente, los investigadores completan automáticamente cada instrucción dada por el usuario con una pequeña lista de requisitos concretos sí / no (por ejemplo: «¿Esto se traduce en español?»). Luego, un modelo maestro más grande de respuestas de los candidatos en comparación con cada elemento de la lista de control, y estos puntajes ponderados se convierten en la señal de recompensa utilizada para refinar el modelo de estudiante.

Resultados y limitaciones

Con los sistemas adecuados para crear la mejor lista de control posible para cada aviso, los investigadores experimentaron una ganancia del 8,2% en una de las referencias que probó su método. No solo eso, sino que esta solución también condujo en algunos otros puntos de referencia, en comparación con los métodos alternativos.

Los investigadores señalan que su estudio se ha centrado en «seguir la capacitación compleja» y que RLCF puede no ser la mejor técnica de aprendizaje de fortalecimiento para otros casos de uso. También mencionan que su método utiliza un modelo más poderoso para actuar como juez para resolver un modelo más pequeño, por lo que también es una limitación importante. Y quizás lo más importante, declaran claramente que «RLCF mejora las instrucciones complejas después, pero no está diseñada para la alineación de la seguridad».

Sin embargo, el estudio ofrece un medio nuevo (pero simple) para mejorar la confiabilidad en lo que probablemente será uno de los aspectos más importantes de la interacción entre humanos y asistentes basados ​​en LLM en el futuro.

Esto se vuelve aún más crítico ya que estos asistentes obtendrán cada vez más capacidades de la agencia, donde las siguientes instrucciones (y alineación) serán esenciales.

Los límites de la hierba de aplono funcionan en Amazon

FTC: Utilizamos enlaces de afiliación de ingresos automáticos. Más.



Fuente