Así es como Siri, impulsado por Gemini, probablemente funcionará bajo el capó


A principios de esta semana, Bloomberg informó que Google y Apple están cerca de un acuerdo anual de mil millones de dólares para una versión del modelo Gemini que impulsará el renovado Siri el próximo año.

Pero quizás más interesante que el precio sea un factor que realmente afectará la experiencia de todos: su arquitectura. He aquí un vistazo a cómo es probable que funcione.

¿Son mucho 1,2 billones de parámetros?

De acuerdo a BloombergEs informeGoogle proporcionará a Apple un modelo de 1,2 billones de parámetros, que residirán en los servidores Private Cloud Compute de Apple, impidiendo que Google acceda a él. Desde una perspectiva de privacidad, esto es genial.

En términos de tamaño, un modelo con 1.200 mil millones de parámetros no es nada despreciable. Sin embargo, una comparación directa con los últimos y mejores modelos de la competencia es bastante difícil.

De hecho, en los últimos años, los laboratorios de inteligencia artificial de frontera cerrada como OpenAI, Anthropic y Google han dejado de revelar los recuentos de parámetros de sus últimos modelos emblemáticos. Esto ha llevado a una amplia especulación sobre la cantidad real de parámetros en ofertas como GPT-5, Gemini 2.5 Pro y Claude Sonnet 4.5. Algunos los sitúan por debajo del billón de parámetros, mientras que otros sugieren que alcancen unos pocos billones. En realidad, nadie lo sabe realmente.

Por otro lado, la mayoría de estos enormes modelos más nuevos comparten una arquitectura subyacente conocida como Mezcla de Expertos (MoE). De hecho, Apple ya utiliza una versión de MoE en su modelo actual basado en la nube, que supuestamente tiene 150 mil millones de parámetros.

El modelo Gemini de Siri probablemente involucrará una mezcla de expertos

En pocas palabras, MoE es una técnica que estructura un modelo con varias subredes especializadas llamadas «expertos”. Para cada entrada, solo se activan unos pocos expertos relevantes, lo que da como resultado un modelo más rápido y más eficiente desde el punto de vista computacional.

En otras palabras, esto permite que los modelos MoE tengan una cantidad muy alta de parámetros, manteniendo al mismo tiempo los costos de inferencia mucho más bajos que si el 100% de sus parámetros se activaran para cada entrada.

Aquí hay otra cosa acerca de los modelos que adoptan el enfoque MoE: generalmente tienen una cantidad máxima de expertos activos y una cantidad máxima de parámetros activos para cada entrada, que es más o menos así:

Un modelo con 1,2 billones de parámetros totales podría utilizar 32 expertos, con sólo 2-4 expertos activos por token. Esto significa que aproximadamente entre 75 y 150 mil millones de parámetros están realizando cálculos en un momento dado, lo que le brinda la capacidad de un modelo masivo y al mismo tiempo mantiene costos computacionales similares a los de ejecutar un modelo mucho más pequeño.

Aquí hay un excelente video de IBM que explica cómo funciona MoE con más detalle:

Para ser claros, no se han publicado informes sobre la arquitectura modelo que Google podría proporcionar a Apple, en caso de que cierren el acuerdo sobre su asociación anunciada. Pero con 1.200 mil millones de parámetros, es muy Es probable que esto requiera que el enfoque del Ministerio de Educación funcione de manera efectiva, dadas las alternativas disponibles en la actualidad.

Si ese tamaño será suficiente para que Siri con motor Gemini siga siendo competitivo con los modelos que estarán disponibles cuando se lance el próximo año es otra historia.

Ofertas de accesorios en Amazon

FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.



Fuente