Los investigadores de Apple realizaron una prueba A/B para medir el impacto de las etiquetas de relevancia generadas por IA en las clasificaciones de búsqueda y descargas de aplicaciones de la App Store. Esto es lo que encontraron.
Las etiquetas de relevancia generadas por IA mejoraron ligeramente las conversiones de búsqueda en la App Store
En un nuevo estudio titulado Mejore la relevancia de la búsqueda: aumente la clasificación de la App Store con valoraciones generadas por LLMUn grupo de investigadores de Apple estudió si los LLM podrían ayudar a mejorar los resultados de búsqueda de la App Store generando las etiquetas de relevancia utilizadas para entrenar el sistema de clasificación.
Como explica el estudio, la relevancia es obviamente clave para ayudar a los usuarios a encontrar las aplicaciones que buscan. Y si bien hay muchas señales que pueden contribuir a las clasificaciones de búsqueda, los investigadores se centraron en dos principales:
- Relevancia conductualque refleja cómo los usuarios interactúan con los resultados, por ejemplo, si tocan o descargan una aplicación.
- Relevancia textualque mide qué tan bien los metadatos de una aplicación (como su nombre, descripción y palabras clave) coinciden semánticamente con la consulta de búsqueda de un usuario.
En el estudio, los investigadores argumentan que si bien hay muchos datos disponibles sobre la relevancia conductual (porque se puede medir fácilmente), no ocurre lo mismo con la relevancia textual:
Si bien las etiquetas de relevancia conductual son abundantes, las etiquetas de relevancia textual generadas por jueces humanos son mucho más raras. Esto crea un problema fundamental: las etiquetas de relevancia textual de alta calidad son raras y costosas de producir, lo que crea un cuello de botella en la escalabilidad y deja al objetivo de relevancia textual sin suficiente potencia en el entrenamiento multiobjetivo.
Para resolver este problema, los investigadores ajustaron un LLM de 3 mil millones de parámetros en juicios humanos existentes para que pudiera aprender a asignar etiquetas de relevancia a las aplicaciones en función de la consulta de búsqueda del usuario y los metadatos de la aplicación.
Luego, generaron millones de nuevas etiquetas de relevancia con este modelo y volvieron a entrenar el sistema de clasificación de la App Store utilizando tanto los datos originales como las etiquetas generadas por LLM.
Una vez hecho esto, realizaron una evaluación fuera de línea, seguida de una prueba A/B global en el tráfico en vivo de la App Store:
«(…) EL
llm-augmentedEl modelo demostró un aumento estadísticamente significativo de +0,24 % en nuestra métrica principal, la tasa de conversión, definida como la proporción de sesiones de búsqueda con al menos una descarga de aplicación. Aunque esta cifra puede parecer baja, se considera una mejora significativa para una clasificación de una industria madura. Esta ganancia se observó en el 89% de las ventanas.
En otras palabras, los usuarios que vieron resultados de búsqueda clasificados utilizando el modelo aumentado de LLM descargaron al menos una aplicación con un 0,24 % más de frecuencia que los usuarios que vieron resultados de búsqueda presentados mediante el modelo de clasificación tradicional.
Y aunque el 0,24% es obviamente un aumento muy pequeño, está creciendo bastante rápido considerando que la mayoría de las estimaciones cifran el número total de descargas de la App Store en 2025 en alrededor de 38 mil millones. Lihat juga j3hs. En la práctica, esto podría traducirse en decenas de millones de descargas adicionales desde las búsquedas en la App Store, algo que los desarrolladores seguramente agradecerían.
Para leer el estudio completo, sigue este enlace.



