Durante la conferencia magistral de la WWDC26, Apple anunció su tercera generación de Apple Foundation Models (AFM), que comprende cinco modelos, algunos de los cuales son locales, otros están basados en la nube y uno de los cuales reside en los servidores de Google que se ejecutan en chips Nvidia. A continuación se ofrece una descripción general de cómo funcionará.
un poco de contexto
Cuando Apple anunció por primera vez sus modelos base en 2024, la línea incluía un modelo de lenguaje en el dispositivo con alrededor de 3 mil millones de parámetros y «un modelo de lenguaje más amplio basado en servidor disponible con Private Cloud Compute y ejecutándose en servidores Apple Silicon», como dijo la compañía. darse tono En el momento.
La computación en la nube privada era una ambicioso empresa, ya que su objetivo era proporcionar capacidades de inteligencia artificial basadas en la nube y al mismo tiempo preservar las mismas garantías de privacidad que los usuarios esperan del procesamiento en el dispositivo.
Por eso era esencial mantener todo internamente. Private Cloud Compute se ejecutó en los centros de datos de Apple, en servidores con tecnología de silicio de Apple. Sin embargo, sus garantías de privacidad pueden ser verificadas de forma independiente por investigadores de seguridad externos.
Sin embargo, mientras Apple luchaba por hacer realidad sus aspiraciones de IA, la compañía se asoció con Google para utilizar Gemini como columna vertebral de sus nuevos esfuerzos de IA, cuyos resultados anunció a principios de esta semana durante la conferencia magistral de la WWDC26.
Los nuevos modelos principales de Apple
La tercera generación de AFM incluye cinco modelos: Núcleo AFM 3 Y Código AFM 3 avanzadocuáles son modelos integrados en el dispositivo, y Nube AFM, Nube ADM 3 (imagen)Y AFM 3 Nube Proque están basados en servidor. La D en ADM 3 Cloud (Imagen) significa transmisión, una tecnología que hemos cubierto aquí en el pasado.
Con la excepción del AFM 3 Cloud Pro, todos los demás modelos han sido diseñados para funcionar en dispositivos Apple Silicon. AFM 3 Cloud Pro, por otro lado, se ejecuta en GPU NVIDIA alojadas en Google Cloud.
Esto fue posible después de que Apple extendido su arquitectura Private Cloud Compute a infraestructura de terceros por primera vez, «manteniendo al mismo tiempo las poderosas protecciones de seguridad y privacidad de Apple”, según la compañía.
En cuanto a los modelos en sí, aquí hay un desglose de cada uno, según lo explica Apple:
- AFM 3 Core, la próxima generación de nuestro modelo denso de 3 mil millones de parámetros que ofrece una calidad superior.
- AFM 3 Core Advanced, nuestro modelo en dispositivo más potente. Es nativamente multimodal y ofrece funciones útiles como voces expresivas y dictados más precisos. Basado en la investigación de vanguardia de Apple, este modelo de 20 mil millones de parámetros utiliza una arquitectura dispersa, activando sólo entre 1 y 4 mil millones de parámetros a la vez dependiendo de la demanda. AFM 3 Core Advanced está desbloqueado y optimizado para nuestros sistemas Apple Silicon de mayor rendimiento.
- AFM 3 Cloud, nuestro caballo de batalla del lado del servidor, optimizado para brindar velocidad, eficiencia y rendimiento.
- ADM 3 Cloud (Imagen), para generar y editar imágenes, que desbloquea herramientas avanzadas de edición de fotografías, el nuevo Image Playground y mucho más.
- AFM 3 Cloud Pro, nuestro modelo basado en servidor de mayor rendimiento, impulsa nuestros casos de uso más exigentes, como herramientas de agentes y razonamiento complejo.
Los aspectos más destacados aquí son AFM 3 Core Advanced y AFM 3 Cloud Pro.
Comenzando con AFM 3 Core Advanced, incluye 20 mil millones de parámetros en un modelo integrado, lo cual no es poca cosa. La mayoría de los modelos integrados convencionales tienden a limitarse a miles de millones de parámetros.
Para que AFM 3 Core Advanced funcione correctamente, Apple utilizó una arquitectura dispersa que activa hasta 4 mil millones de parámetros a la vez, dependiendo del mensaje, en lugar de una arquitectura densa que tendría que mantener activos los 20 mil millones de parámetros para cada consulta.
Aunque conceptualmente similar al enfoque de Mezcla de Expertos, esta activación selectiva se basa en una técnica inventada por Apple y detallada en el interesante estudio. Poda siguiendo pautas para modelos de lenguaje grandes lanzado hace un año.
En cuanto a AFM 3 Cloud Pro, es el que se ejecuta en infraestructura externa. Puedes leer algunos detalles técnicos de esta extensión en Este artículo publicado en el blog de seguridad de Apple a principios de esta semana, pero aquí está la parte más importante:
Sobre esta base, Apple y Google han colaborado para crear capacidades que van mucho más allá de una implementación tradicional de TI confidencial:
- No dependemos únicamente de tecnologías informáticas confidenciales para mitigar los ataques que explotan el acceso privilegiado fuera de una máquina virtual confidencial, incluidos los ataques de canal lateral. Consideramos que cada componente, desde el firmware hasta las pilas de sistemas operativos host y invitados y el código de la aplicación, es parte de nuestra base informática confiable, sujeto a nuestra transparencia verificable y garantías de acceso sin privilegios.
- Para mitigar el riesgo de ataques a la cadena de suministro, mantenemos un registro de solo anexo, verificable criptográficamente, de todo el hardware de Google Cloud que forma parte de la flota de PCC. Para los componentes que podrían explotarse para extraer datos del usuario en caso de un compromiso, nuestra certificación de software está anclada en al menos dos raíces de confianza separadas de proveedores independientes.
- Incluso cuando se implementa con informática confidencial, creemos que la pila de inferencia debe diseñarse desde el principio teniendo en cuenta la privacidad y la seguridad. PCC en Google Cloud aprovecha muchos de los mismos modelos de seguridad arquitectónica que PCC en Apple Silicon para implementar estas protecciones en capas: el análisis inicial de los datos de la red para cada solicitud ocurre en un proceso dedicado dentro de su propio espacio de nombres, el software de inferencia compartido se recicla con una vida útil corta y las claves certificadas se mantienen en una máquina virtual confidencial dedicada separada, aislada de la entrada externa.
En su blog Machine Learning Research, Apple dicho que los cinco modelos «compartieron una base inicial común antes de especializarse en sus respectivas arquitecturas y casos de uso, agregando características multimodales como audio, comprensión de imágenes, razonamiento de contexto prolongado y generación visual de alta calidad».
La empresa añade que, para entrenar estos modelos, utilizó «una combinación de datos que incluyen información disponible públicamente, datos licenciados o comprados a terceros, datos de fuente abierta, datos obtenidos a través de estudios dedicados y datos sintéticos». Apple también señala que el proceso de capacitación no incluyó datos ni interacciones del usuario y que los editores web podrían optar por no recibir capacitación en el modelo base.
Los resultados
Apple dice que ha realizado extensas evaluaciones humanas de sus modelos base de tercera generación, con evaluadores internos calificando las respuestas en categorías como seguimiento de instrucciones, veracidad, presentación y comprensión de imágenes.
Los modelos se evaluaron con respecto a sus predecesores (cuando corresponda) y puede ver algunos de los resultados a continuación:
Fracción de respuestas preferidas en calificaciones humanas en paralelo de habilidades de texto generales, comparando AFM 3 Core y AFM 3 Cloud con nuestra generación anterior de modelos. Los resultados se presentan en cuatro grupos regionales distintos para demostrar un desempeño consistente en todas las variantes internacionales. «English» representa nuestro conjunto de referencia global en inglés, mientras que «PFIGSCJK», «DNNSTV» y «AFIHHMPRTU» representan nuestras configuraciones regionales globales admitidas restantes.
Fracción de respuestas preferidas en calificaciones humanas en paralelo de las habilidades de comprensión de imágenes en inglés. Los resultados comparan AFM 3 Core y AFM 3 Cloud con sus predecesores de 2025.
Fracción de respuestas preferidas en calificaciones humanas en paralelo para tareas de dictado. Los resultados comparan el AFM 3 Core Advanced con el sistema de dictado de producción existente de Apple en siete dimensiones de calidad. AFM 3 Core Advanced demuestra una tasa de éxito positiva en términos de calidad general, con preferencia que se extiende consistentemente en todas las dimensiones individuales de formato y comprensión.
Para profundizar aún más en los modelos Apple Foundation de tercera generación, sigue este enlace.
Para descubrir en Amazon
FTC: utilizamos enlaces de afiliados automáticos que generan ingresos. Más.







