¿Cuál es la precisión de la nueva IA de transcripción de Apple?


Como señalé recientemente, mientras Whisper está en la parte superior de la mente y siempre un modelo de transcripción muy bueno, OpenAi se aleja de él. Dicho esto, el hecho de que la nueva API de transcripción de Apple sea más rápido que Whisper es una excelente noticia. Pero como preciso ¿Es? Lo probamos.

Divulgación completa: la idea de esta publicación provino del desarrollador Prakash Pax, quien hizo sus propias pruebas. Como él explica:

Grabé 15 muestras de audio en inglés, que van desde 15 segundos a 2 minutos. Y probado contra estas 3 herramientas de habla de texto.

  • Las nuevas API de transcripción de Apple
  • Operai Whisper grande V3 Turbo
  • Once Lab Scribe V1

No incluiré sus resultados aquí, de lo contrario no tendrías ninguna razón para ir Su interesante publicación Y revísalo por ti mismo.

Pero agregó esta advertencia sobre su metodología. «Soy un hablante de inglés no nativo. Los resultados pueden variar ligeramente para los demás», y sus pruebas me han hecho curiosidad por saber cómo Apple y OpenAi tendrían lugar contra el periquito Nvidia, que es, con mucho, el modelo de transcripción más rápido en el mercado.

Como lo hice

Como tampoco soy un hablante nativo inglés, decidí usar un reciente 9to5mac todos los días Episodio, que tenía 7:31 de largo.

Yo usé Macwhisper Para ejecutar Openai, susurra grande V3 Turbo y Nvidia’s Paraket V2. Para la API del habla de Apple, utilicé la excelente de Finn Vorhees Japonés proyecto. Los dirigí en mi M2 Pro MacBook Pro con 16 GB de RAM.

Para la tasa de error de caracteres (CER) y el análisis de la tasa de error de la palabra (WER), porque hay muchas formas de calcular las tasas de error de caracteres y palabras (por ejemplo: ¿Normalizas el espacio? Métrica: ciertoY Métrica: Wer.

Los dos describen su metodología en sus respectivas páginas, así que no voy aquí. Lo que importa es que todos los modelos se hayan evaluado utilizando el mismo enfoque, lo que garantiza que la línea básica sea consistente y que las tendencias globales siguen siendo confiables, incluso si los números exactos de manera diferente de manera diferente diferente.

Como lo hicieron

Modelo Tiempo de transcripción Tasa de error de personaje Tasa de error de palabras
Periquito v2 2 segundos 5.8% 12.3%
Susurros grandes v3 turbo 40 segundos 0.2% 1.5%
Manzana 9 segundos 1.9% 10.3%

Al llevar las cosas un poco más lejos, decidí que Chatgpt, Claude y Gemini también calculen Cer y Wer. Aquí están los resultados, así como la descripción autodeclaria de la metodología:

Chatgpt (O4-Mini-Haut)

Referencia («base») y cada hipótesis (manzana, periquito, susurro) se normalizaron primero por:

  • Convertir todo el texto en pequeño
  • Eliminar cualquier puntuación (períodos, comas, citas, etc.)
  • Colapsar todas las carreras espaciales en un solo espacio
  • Esto asegura que solo comparemos las palabras (o personajes) mismas, no en el formato o la capitalización.
Modelo Tiempo de transcripción Tasa de error de personaje Tasa de error de palabras
Periquito v2 2 segundos 6.0% 12.3%
Susurros grandes v3 turbo 40 segundos 0.4% 1.4%
Manzana 9 segundos 2.1% 10.2%

Claude (soneto 4)

Protocolo de estandarización de texto: Antes de calcular las tasas de error, todos los textos se someten a una normalización estandarizada para garantizar una comparación justa:

  1. Estandarización de casos: Convertir en pequeño
  2. Estandarización de puntuación::
    • Normalice las citas completadas (») con apóstrofes rectos (‘)
    • Normalice las citas completadas («») a las cotizaciones rectas («)
    • Normalice el em (-) danses con líneas (-)
  3. Normalización del espacio: Reemplace varios caracteres blancos del espacio con espacios simples
  4. Recortar: Retire los espacios blancos y de arrastre

Nota: Traté de usar Claude 4 Opus, pero recibí mensajes de error debido a los límites de capacidad del servidor al final de Anthrope.

Modelo Tiempo de transcripción Tasa de error de personaje Tasa de error de palabras
Periquito v2 2 segundos 8.4% 11.0%
Susurros grandes v3 turbo 40 segundos 0.1% 1.0%
Manzana 9 segundos 3.5% 8.2%

Géminis (2.5 Pro)

Todos los textos (tanto la línea básica como los archivos de hipótesis) se han estandarizado para garantizar una comparación justa. El proceso de estandarización incluyó:

  • Convierta todo el texto en pequeño.
  • Eliminación de cualquier puntuación (por ejemplo ,,.,?, ‘, «).
  • El reemplazo de líneas de acceso con espacios (por ejemplo, «de inicio a finalización» se convierte en «de principio a fin»).
Modelo Tiempo de transcripción Tasa de error de personaje Tasa de error de palabras
Periquito v2 2 segundos 7.6% 12.3%
Susurros grandes v3 turbo 40 segundos 0.3% 0.4%
Manzana 9 segundos 3.4% 5.3%

Entonces, ¿qué es lo mejor?

Aquí está la respuesta favorita de cualquier persona: depende.

Whisper es claramente el más preciso de los tres, pero si trabaja en un proyecto sensible al tiempo y transcribe algo más, el tiempo de procesamiento podría ser un problema.

El periquito, por otro lado, es ciertamente su mejor opción cuando la velocidad cuenta más que precisión. Supongamos que tiene la grabación de una conferencia de dos horas y solo necesita una forma rápida de encontrar un segmento específico. En este caso, abandonar cierta precisión para la velocidad podría ser el camino a seguir.

El modelo de Apple aterrizó en el medio del camino, pero no en la dirección equivocada. Está más cerca del periquito en términos de velocidad, pero ya logra superarlo en precisión. Es lo suficientemente bueno para una primera grieta.

Es cierto que todavía está lejos de susurrar, en particular para el trabajo de transcripción con altos problemas que requieren ajustes mínimos o manuales. Pero el hecho de que no está actuando de forma nativa, sin dependencia de las API de tercera parte o las instalaciones externas, es un gran problema, especialmente porque la adopción de desarrolladores aumenta y que Apple continúa iterando.

Ofertas de accesorios en Amazon

FTC: utilizamos enlaces de afiliación de ingresos automáticos. Más.



Fuente