Nuevos estudios de Apple analizan el desarrollo de software impulsado por IA


Apple ha publicado tres estudios interesantes que ofrecen información sobre cómo el desarrollo impulsado por IA podría mejorar los flujos de trabajo, la calidad y la productividad. Aquí están los detalles.

Predecir defectos de software utilizando el modelo de transformador Autoencoder

En este estudio, los investigadores de Apple presentan un nuevo modelo de IA que supera las limitaciones de los LLM actuales (como «alucinaciones, generación de contexto deficiente y pérdida de relaciones comerciales críticas durante la recuperación»), al analizar bases de código a gran escala para detectar y predecir errores.

El modelo, llamado ADE-QVAET, tiene como objetivo mejorar la precisión de la predicción de errores combinando cuatro técnicas de IA: evolución diferencial adaptativa (ADE), codificador automático variacional cuántico (QVAE), capa de transformador y reducción y aumento de ruido adaptativo (ANRA).

En pocas palabras, mientras ADE ajusta la forma en que aprende el modelo, QVAE lo ayuda a comprender patrones más profundos en los datos. Mientras tanto, la capa Transformar garantiza que el modelo realice un seguimiento de cómo estos modelos se relacionan entre sí, y ANRA limpia y equilibra los datos para mantener resultados consistentes.

Curiosamente, este no es un LLM que analiza código directamente. En cambio, analiza métricas y datos sobre el código, como complejidad, tamaño y estructura, y busca patrones que puedan indicar dónde es probable que ocurran errores.

Según los investigadores, estos son los resultados que obtuvieron cuando midieron el rendimiento del modelo en un conjunto de datos de Kaggle diseñado específicamente para la predicción de errores de software:

«Cuando se entrena con un porcentaje de entrenamiento del 90%, ADE-QVAET logra una alta precisión, recuperación y puntuación F1 de 98,08%, 92,45%, 94,67% y 98,12%, respectivamente, en comparación con el modelo ML de evolución diferencial (DE)».

Esto significa que el modelo fue muy confiable en general y muy efectivo para identificar correctamente errores reales, evitando al mismo tiempo falsos positivos.

Lea el estudio completo en el blog Machine Learning Research de Apple

Agentic RAG para pruebas de software con gráficos vectoriales híbridos y orquestación multiagente

Este estudio fue realizado por cuatro investigadores de Apple, tres de los cuales trabajaron en el modelo ADE-QVAET. Aquí, abordan una segunda tarea tediosa a la que se enfrentan los ingenieros de calidad: crear y mantener planes y casos de prueba detallados para grandes proyectos de software.

En este estudio, desarrollan un sistema que utiliza LLM y agentes autónomos de IA para generar y gestionar automáticamente artefactos de prueba, que van desde planes de prueba hasta informes de validación, manteniendo al mismo tiempo una trazabilidad total entre los requisitos, la lógica empresarial y los resultados.

En otras palabras, construyeron un sistema de inteligencia artificial que puede planificar, escribir y organizar pruebas de software de forma autónoma, lo que podría ayudar a agilizar el flujo de trabajo de los ingenieros de calidad, que «dedican entre el 30 y el 40 % de su tiempo a crear artefactos de prueba fundamentales, como planes de prueba, casos y scripts de automatización».

Al igual que con el modelo ADE-QVAET, los resultados aquí fueron bastante prometedores:

«El sistema logra notables mejoras en la precisión del 65% al ​​94,8%, al tiempo que garantiza una trazabilidad completa de los documentos durante todo el ciclo de vida de la ingeniería de calidad. La validación experimental de los proyectos de migración e ingeniería de sistemas empresariales de SAP demuestra una reducción del 85% en el cronograma de pruebas, una mejora del 85% en la eficiencia del conjunto de pruebas y un ahorro de costos proyectado del 35%, lo que se traduce en una aceleración de 2 meses de puesta en servicio».

Por otro lado, los investigadores también notaron que el marco tiene limitaciones, incluido el hecho de que su trabajo se centró sólo en «sistemas de empleados, finanzas y entornos SAP», lo que limita sus capacidades de generalización.

Lea el estudio completo en el blog Machine Learning Research de Apple

Formación de agentes y verificadores de ingeniería de software con SWE-Gym

Este es quizás el más interesante y ambicioso de los tres estudios.

Si bien los dos estudios anteriores se centraron en predecir dónde es probable que aparezcan errores y cómo se prueban y validan, la idea detrás de SWE-Gym es entrenar agentes de IA que puedan de hecho, arreglé los errores aprendiendo a leer, editar y verificar código real.

SWE-Gym se creó utilizando 2438 tareas de Python del mundo real de 11 repositorios de código abierto, cada uno con un entorno ejecutable y un conjunto de pruebas para que los agentes puedan practicar la escritura y depuración de código en condiciones realistas.

Los investigadores también desarrollaron SWE-Gym Lite, que incluía 230 tareas más simples y autónomas diseñadas para hacer que el entrenamiento y la evaluación sean más rápidos y menos costosos desde el punto de vista computacional.

Según el estudio, los agentes entrenados con SWE-Gym resolvieron correctamente el 72,5% de las tareas, superando los puntos de referencia anteriores en más de 20 puntos porcentuales.

Mientras tanto, SWE-Gym Lite redujo el tiempo de entrenamiento a casi la mitad en comparación con la configuración completa, sin dejar de ofrecer resultados similares. Por otro lado, la variante Lite incluye muchas menos tareas de codificación y mucho más simples, lo que la hace menos efectiva para probar modelos en problemas más grandes y complejos.

Lea el estudio completo en el blog Machine Learning Research de Apple

Ofertas de accesorios en Amazon

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.



Fuente