Los dispositivos Apple ofrecen un discurso increíble a la transcripción de texto en la beta del desarrollador


Si necesita transcribir el video de audio o texto, la mayoría de las aplicaciones actuales funcionan con el modelo Whisper de OpenAI. Probablemente use este modelo si usa aplicaciones como MacWhisper para transcribir reuniones o conferencias, o para generar subtítulos para videos de YouTube.

Pero iOS 26 y otros desarrolladores beta de Apple incluyen los marcos de transcripción propios de la compañía, y una prueba sugiere que corresponden a la precisión de Whisper mientras operan más del doble de velocidad …

Si ya ha utilizado las capacidades de dictado integrado de uno de sus dispositivos Apple, esto se gestiona por El marco de la palabra de Apple. En la nueva versión beta, hay versiones beta de Speecasnalyzer Y Discurso Lo que los desarrolladores pueden usar en sus propias aplicaciones.

Use el marco del habla para reconocer las palabras pronunciadas en audio grabado o en vivo. El soporte de dictado del teclado utiliza el reconocimiento de voz para traducir el contenido de audio al texto. Este marco proporciona un comportamiento similar, excepto que puede usarlo sin la presencia del teclado.

Por ejemplo, puede usar el reconocimiento de voz para reconocer los comandos verbales o para administrar el dictado del texto en otras partes de su aplicación. El marco proporciona una clase, un espectro y una serie de módulos que se pueden agregar al analizador para proporcionar tipos específicos de análisis y transcripción. Muchos casos de uso solo necesitan un módulo SpeechTranscranscriptor, que proporciona transcripciones de texto de texto.

Macestorías John Voorhees le pidió a su hijo que creara una línea de comando para probar esta nueva capacidad y los resultados quedaron increíblemente impresionados.

Le pregunté a Finn qué se necesitaría para construir una herramienta de línea de comandos para transcribir archivos de video y audio con Spechanalyzer y SpeechTranscriptors. Pensó que solo tomaría unos 10 minutos, y no estaba lejos. Al final, me tomó más tiempo instalar MacOS Tahoe después de la WWDC que no le tomó a Finn construir JaponésUna utilidad de línea de comando simple que toma archivos de audio y video en entrada y deja transcripciones formuladas SRT y TXT.

Utilizó un video de 34 minutos para probarlo contra MacWhisper y Vidcap, dos de las aplicaciones de transcripción más populares. Descubrió que los módulos de Apple correspondían a la precisión de estos, pero eran más del doble de la aplicación existente más efectiva, MacWhisper realizando el modelo V3 Turbo grande:

Aplicar Tiempo de transcripción
Yap (usando el marco de Apple) 0:45
MacWhisper (Grand V3 Turbo) 1:41
Vidcap 1:55
MacWhisper (Grand V2) 3:55

Argumenta que incluso si puede parecer una mejora relativamente trivial para tareas ocasionales, las diferencias se agregarán rápidamente al realizar transcripciones por lotes o la transcripción de archivos muy regularmente, como estudiantes con notas de conferencia.

Si ejecuta el desarrollador MacOS Tahoe Beta, puede Instale YAP de GitHub Para probarlo por ti mismo.

Accesorios resaltados

Imagen: 9to5Mac ScreenGrab de un archivo de subtítulo de video de YouTube

FTC: utilizamos enlaces de afiliación de ingresos automáticos. Más.



Fuente