Pruebe el modelo de subtitización de video de Apple de su navegador


Hace unos meses, Apple publicó FastVLM, un modelo de lenguaje visual (VLM) que ofreció un procesamiento de imágenes de alta resolución casi instantable. Ahora puede hacerlo para una rotación, siempre que tenga un Silicon Apple Mac. Aquí está cómo.

Cuando cubrimos FastVLM por primera vez, explicamos que operaba MLX, el marco abierto de ML de Apple especialmente diseñado para Apple Silicon, para ofrecer hasta 85 veces una leyenda de video más rápida, mientras que es más de 3 veces más pequeño que los modelos similares.

Desde entonces, Apple ha trabajado en el proyecto, que ahora se puede encontrar en Rostrono solo en Girub. Al abrazar la cara, puede cargar la versión más ligera, FastVLM-0.5B, directamente en su navegador y Compruébalo por ti mismo.

Dependiendo de su equipo, esto puede tomar un poco de carga. Tomó unos minutos en mi M2 Pro MacBook Pro 16 GB. Pero tan pronto como fue atendido, el modelo comenzó a describir mi apariencia con precisión, la habitación detrás de mí, diferentes expresiones y objetos que traería.

En la esquina inferior izquierda, puede ajustar el aviso que el modelo considerará porque pone la leyenda en vivo, o puede elegir entre algunas sugerencias, como:

  • Describe lo que ves en una oración.
  • ¿Cuál es el color de mi camisa?
  • Identificar cualquier texto visible o contenido escrito.
  • ¿Qué emociones o acciones están representadas?
  • Nombra el objeto que sostengo en mi mano.

Si desea ir más allá, puede intentar usar una aplicación de cámara virtual para alimentar el video con la herramienta y verlo al instante describir varias escenas en detalle, hasta el punto de dificultar la comprensión de lo que está sucediendo. Por supuesto, el caso de uso real sería diferente, pero esto enfatiza cuánto y a precisión puede ser el modelo.

Lo que es particularmente interesante en esta experiencia es que se ejecuta localmente en el navegador, lo que significa que ningún datos nunca sale del dispositivo, e incluso puede estar fuera de línea. Por supuesto, este sería un excelente caso de uso para dispositivos portátiles y tecnologías de asistencia, donde la ligereza y la baja latencia serán esenciales para desbloquear mejores casos de uso.

Cabe señalar que La demostración Funciona en el modelo más ligero de $ 0.5 mil millones, mientras que la familia FastVLM también incluye variantes más grandes y más poderosas con 1.5 mil millones y 7 mil millones de parámetros. Con modelos más grandes, el rendimiento y la velocidad podrían mejorar aún más, aunque ejecutarlo directamente en el navegador probablemente no sería GO.

¿Lo has probado? Comparte tus pensamientos en los comentarios.

Ofertas de accesorios en Amazon

FTC: utilizamos enlaces de afiliación de ingresos automáticos. Más.



Fuente