La investigación de Apple genera imágenes con una técnica de IA olvidada


Hoy en día, la mayoría de las imágenes generativas se distribuyen principalmente en dos categorías principales: modelos de difusión, como la difusión estable o los modelos autorregresivos, como el OpenAI GPT-4O. Pero Apple acaba de publicar dos artículos que muestran cómo podría haber espacio para una tercera técnica olvidada: la normalización de los flujos. Y con una pizca de transformadores en la parte superior, podrían ser más capaces de lo que pensábamos antes.

En primer lugar: ¿Qué son los flujos de estandarización?

Los flujos de estandarización (NFS) son un tipo de modelo AI que funciona al aprender a transformar matemáticamente los datos del mundo real (como las imágenes) en ruido estructurado, luego para revertir este proceso para generar nuevas muestras.

La gran ventaja es que pueden calcular la probabilidad exacta de cada imagen que generan, una propiedad que los modelos de difusión no pueden hacer. Esto hace que el flujo sea particularmente atractivo para las tareas donde comprender la probabilidad de un resultado es realmente importante.

Pero hay una razón por la cual la mayoría de las personas no han oído hablar mucho de él últimamente: los primeros modelos basados ​​en el flujo han producido imágenes que parecían borrosas o carecían de los detalles y la diversidad ofrecida por la difusión y los sistemas basados ​​en los transformadores.

Estudio N ° 1: Tarflow

En el periódico «Los flujos de estandarización son capaces de modelos generativos», Apple presenta un nuevo modelo llamado Tarflow, abreviatura del flujo de flujo autogresivo del transformador.

En su corazón, Tarflow reemplaza las viejas capas de artesanía utilizadas en modelos de flujo anteriores con bloques de transformadores. Básicamente, divide las imágenes en pequeños parches y las genera como un bloque, cada bloque proporcionado sobre la base de todos los que vinieron. Esto se llama autogrivo, que es el mismo método subyacente que OPTAAI utiliza actualmente para la generación de imágenes.

Imágenes de varias resoluciones generadas por modelos Tarflow. De izquierda a derecha, de arriba a abajo: 256 × 256 imágenes en imágenes AFHQ, 128 × 128 y 64 × 64 en Imagenet. Fuente: Los flujos de estandarización son capaces de modelos generativos

La principal diferencia es que, si bien OpenAI genera tokens discretos, tratando con imágenes como secuencias largas de símbolos de tipo de texto, el Tarflow de Apple genera valores de píxeles directamente, sin primero la imagen. Es una diferencia pequeña pero significativa porque permite a Apple evitar la pérdida de calidad y la rigidez que a menudo viene con imágenes de compresión en un vocabulario fijo de tokens.

Sin embargo, hubo límites, especialmente con respecto a la escala de imágenes más grandes con alta resolución. Y aquí es donde entra en juego el segundo estudio.

Estudio N ° 2: flujo de estrellas

En el periódico «Starflow: escala de flujo de estandarización latente para síntesis de imagen de alta resolución», Apple se construye directamente en Tarflow y presenta el flujo de estrellas (flujo autogresivo del transformador escalable), con actualizaciones clave.

El mayor cambio: Starflow ya no genera imágenes directamente en el espacio de píxeles. En cambio, funciona principalmente en una versión comprimida de la imagen, luego vuelva a colocar las cosas en un decodificador que se remonta a la resolución completa en la etapa final.

Imagen aleatoria Muestras de acero a la atracción 256 × 256 y 512 × 512. Fuente: Starflow: escala de flujo de estandarización latente para síntesis de imagen de alta resolución

Esta transición a lo que se llama espacio latente significa que Starflow no necesita predecir directamente millones de píxeles. Primero puede centrarse en la estructura de imagen más amplia, dejando detalles de la textura fina al decodificador.

Apple también ha reelaborado cómo el modelo administra las indicaciones de texto. En lugar de construir un codificador de texto separado, Starflow puede conectar los modelos de lenguaje existentes (como el modelo de lenguaje pequeño de Google Gemma, que en teoría podría ejecutarse en el disco) para administrar la comprensión del lenguaje cuando el usuario invita al modelo a crear la imagen. Esto mantiene la generación de imágenes del modelo centrada en refinar los detalles visuales.

Cómo se compara Starflow con el 4O del generador de imágenes Operai

Mientras que Apple repite los flujos, OpenAi también ha excedido recientemente la difusión con su modelo GPT-4O. Pero su enfoque es fundamentalmente diferente.

GPT-4O trata imágenes como secuencias de tokens discretas, un poco como las palabras en una oración. Cuando le pide a ChatGPT que genere una imagen, el modelo predice un token de imagen al mismo tiempo, construyendo la imagen por pieza. Esto proporciona una enorme flexibilidad: el mismo modelo puede generar texto, imágenes y audio en un solo flujo de token unificado.

El compromiso? La generación de tokens por token puede ser lenta, especialmente para imágenes grandes o de alta resolución. Y es extremadamente costoso en el cálculo. Pero como GPT-4O funciona completamente en la nube, OpenAi no está tan limitado por la latencia o el consumo de energía.

En resumen: Apple y OpenAi van más allá de la transmisión, pero mientras Optaai construyó para sus centros de datos, Apple claramente construida para nuestros bolsillos.

FTC: utilizamos enlaces de afiliación de ingresos automáticos. Más.



Fuente