Durante WWDC25, Apple anunció nuevas versiones de sus modelos de base en los dispositivos basados en la nube. Ahora han publicado un informe tecnológico que detalla cómo se formaron, optimizaron y evaluaron estos modelos. Y el informe incluye golosinas realmente interesantes.
En un documento completo llamado «Modelos Language Language de Apple Intelligence Foundation – Tech Report 2025«, La compañía viaja varios aspectos de los nuevos modelos, incluida su arquitectura, sus fuentes de datos, su pretrabenamiento, post-entrenamiento, el desarrollo del uso de herramientas, optimizaciones y referencias.
Es una lectura muy técnica, pero muy interesante si te gusta entrar en las nueces y pernos de este tipo de cosas. Aquí hay algunos hechos sobresalientes particularmente interesantes.
El modelo local se ha dividido en dos bloques
Ya sabíamos que el modelo de disco de Apple (los desarrolladores podrán presionar) tiene alrededor de 3 mil millones de parámetros. Ahora la compañía ha detallado que este modelo en realidad se divide en dos bloques:
«El bloque 1 contiene el 62.5% de las capas totales del transformador, mientras que el bloque 2 contiene el 37.5% restante de las capas del transformador, pero se ha eliminado de las proyecciones clave y de valor».
En la práctica, esto significa que el modelo local requiere 37.5% menos de memoria para chatear, y el tiempo requerido para producir el primer token (básicamente, un fragmento de una palabra) también se redujo en alrededor del 37.5%. Sin embargo, Apple ha estructurado la división para preservar el rendimiento general y la calidad de salida del modelo.
Como resultado, hace unos años, publicó Apple Este estudioQuienes trataron de intercambiar partes de un LLM entre RAM y almacenamiento flash si fuera necesario, para envolver un modelo local más grande que el que de otro modo sería soportador de la memoria del dispositivo.
Aunque Apple finalmente ha tomado una ruta diferente, es interesante observar las diferentes formas en que la compañía ha experimentado para ofrecer un buen rendimiento local, incluso en dispositivos relacionados con la memoria.
El modelo basado en la nube tiene una arquitectura creativa
Para su modelo de servidor, Apple construyó una arquitectura personalizada que estaba hecha a medida para su plataforma privada de cálculo en la nube. Su nombre es una mezcla de expertos paralelos (PT-MOE), y la forma en que funciona es bastante ordenada.
En una palabra (y en riesgo de simplificar las cosas), la mezcla de expertos es cuando, en lugar de confiar en un gran modelo de IA, se divide en subredes (o expertos) más pequeñas que solo se activan cuando la tarea está vinculada a algo en el que están … bueno, un experto.
Entonces, si su pronta se refiere a la cocina, solo se activan los expertos relacionados con la cocina, mientras que otros permanecen inactivos. El resultado siempre es un modelo global masivo, pero su diseño modular le permite responder más rápido (y a menudo más precisamente) que si todo atravesara el enorme modelo unificado, para cada invitación.
Aquí hay una mezcla de IBM de explicaciones expertas, en caso de que tenga 8 minutos para perder:
Apple construyó un nuevo tipo de transformador llamado transformador de pista paralelo, luego lo colocó en la escala con expertos de la mezcla de expertos (MOE). Parece demasiado complicado, pero lo principal es:
Los transformadores tradicionales tratan los tokens a través de una sola pila de capas, una tras otra. Pero en lugar de utilizar este enfoque único para calcular cada token, el diseño de Apple divide el modelo en varias pistas paralelas. Cada pista trata los tokens de forma independiente y solo sincroniza ciertos momentos.
Luego, dentro de cada una de estas pistas, Apple reemplazó todas las otras capas de transformador ordinario con una capa MOE, que activa solo unos pocos expertos para cada token, mientras que el resto permanece inactivo. Y debido a que cada pista tiene sus propios expertos locales, el modelo evita los cuellos de botella que ocurren cuando todo es coordinar en todo el sistema.
Agregue a eso una configuración inteligente que equilibra el contexto local con una gran comprensión a gran escala (llamadas capas de atención globales y locales entrelazadas), y el resultado es un modelo muy modular, eficiente y en evolución que es más rápido y delgado, pero siempre es bastante inteligente.
Apple aumentó la representación multilingüe en un 275%
Uno de los mayores golpes contra el despliegue inicial de la inteligencia de Apple ha sido (y todavía) un apoyo limitado en el lenguaje más allá del inglés. Con sus nuevos modelos, Apple ha ampliado el soporte lingüístico y el documento detalla los pasos que ha tomado para hacer esto.
Según el documento, Apple ha aumentado la cantidad de datos multilingües utilizados durante la formación del 8% al 30%. Esto incluye contenido orgánico y sintético.
Apple también ha aumentado sus tokens (que es esencialmente el vocabulario de tokens del modelo) en un 50%. Esto significa que su modelo ahora conoce 150k de diferentes tokens, arriba en comparación con los 100k anteriores.
La compañía dice que estos cambios han llevado a «importantes ganancias» de rendimiento a través de referencias que no son de un inglés, en particular después de aprender a fortalecerse.
En el desocumento, Apple explica que las evaluaciones se llevaron a cabo utilizando invitaciones escritas por hablantes nativos (en lugar de traducciones), y el modelo se probó tanto en precisión como en la forma en que sus respuestas sonaban naturales en los contextos locales. Si parece familiar, probablemente lea nuestra reciente cobertura de este estudio de investigación de Apple.
En la práctica, todo esto significa que características como las herramientas de escritura deberían operar de manera más confiable en idiomas admitidos.
¿Dónde compró Apple sus datos?
Al igual que con sus primeros modelos, la mayoría de los datos de capacitación provienen de la rampa web. Pero Apple dice que respeta su robot de Applebot robots.txt Exclusiones, lo que significa que si un sitio web no solo quiere rayar su contenido, puede decirlo, y Applebot lo dejará solo.
Dicho esto, así es como Apple dice que proporcionó datos de sus nuevos modelos:
- Datos web accesibles al público: Aunque Apple no especifica cantidades o proporciones, indica que la mayoría de sus datos de entrenamiento provienen de páginas web de rampa de Applebot. Apple aplicó varias capas de filtrado para eliminar contenido de baja calidad, peligroso o no relevante, incluidas páginas de spam, texto poco profundo o formateo impreso y roto.
- Datos de la licencia: Apple no cae en los detalles aquí, pero confirma que algunos de los datos de capacitación han sido autorizados con editores. Informes anteriores habían sugerido que Apple había negociado con Condé Nast (The New Yorker, Vogue, Wired, etc.), NBC News e IAC (People Magazine, The Daily Beast y Better Houses and Gardens, etc.), por lo tanto, es probable que al menos parte de este equipo haya llegado.
- Datos sintéticos: Apple ha generado datos sintéticos utilizando modelos más pequeños y tuberías personalizadas, en particular para matemáticas, código, ajuste de instrucciones y tareas de lenguaje visual. Aunque la compañía tampoco especifica la cantidad del conjunto de datos que esto representa, señala que los datos sintéticos han jugado un papel importante en las etapas de entrenamiento clave, como el ajuste fino, el aprendizaje de fortalecer y mejorar el soporte multilingüe. Y si se pregunta qué datos sintéticos simplemente significan «cosas inventadas», tenemos un explicación sobre la razón por la cual no lo es.
- Datos visuales: Para apoyar la comprensión de la imagen, Apple ha recopilado más de 10 mil millones de pares de imágenes espaciales, incluidas capturas de pantalla con OCR y notas escritas a mano. También usó sus propios modelos para generar leyendas adicionales y más ricas. En el pasado, se ha informado que Apple había tenido conversaciones de licencia con Shutterstock, por lo que es posible que parte de este equipo también haya llegado.
9to5mac
No hubo noticias sobre el drama interno de Apple, las dificultades técnicas y la incapacidad global para tomar el impulso que necesita para llenar el vacío (que algunos podrían llamar un abismo) entre sus ofertas de IA y la competencia. Todo esto es cierto.
Sin embargo, el hecho de que Apple se percibe en gran medida como tarde en la IA no significa que la sociedad esté inmóvil. Este informe ofrece una visión general interesante de los nuevos modelos de Apple (y GAPS), así como detalles importantes sobre un enfoque relacionado con la confidencialidad que pocas empresas incluso intentan.



