OpenAI acaba de lanzar tres nuevos modelos de voz en tiempo real que, según dice, «desbloquearán una nueva clase de aplicaciones de voz para desarrolladores». Cada nuevo modelo de inteligencia de voz tiene una especialidad única para diferentes propósitos.
Los desarrolladores pueden crear nuevas experiencias de aplicaciones con los 3 nuevos modelos de voz de OpenAI
Hay tres nuevos modelos de voz OpenAI destinados a diferentes propósitos, incluido el razonamiento, la traducción y la transcripción.
Esto es lo que la compañía anunció hoy:
- GPT-Tiempo-real-2nuestro primer modelo de voz con razonamiento de clase GPT-5 capaz de manejar solicitudes más difíciles y hacer avanzar la conversación de forma natural.
- GPT‑Traducción en tiempo realun nuevo modelo de traducción en vivo que traduce voz de más de 70 idiomas de entrada a 13 idiomas de salida mientras sigue el ritmo del hablante.
- GPT‑Tiempo real‑Susurrouna nueva transmisión de texto a voz que transcribe el habla en vivo mientras el hablante habla.
OpenAI explica con más detalle las novedades del modelo de voz GPT-Realtime-2 clase GPT-5 con razonamiento:
GPT‑Realtime‑2 está diseñado para interacciones de voz en vivo donde el modelo mantiene la conversación en movimiento mientras razona sobre una solicitud, invoca herramientas, maneja correcciones o interrupciones y responde de una manera apropiada al momento.
Mientras tanto, el nuevo modelo de traducción de voz admite «70 idiomas de entrada y 13 idiomas de salida», afirma la compañía.
Finalmente, está el modelo de transcripción en tiempo real:
GPT‑Realtime‑Whisper es un nuevo modelo de transcripción en streaming diseñado para conversión de texto a voz de baja latencia. Transcribe el audio a medida que la gente habla, de modo que los productos en vivo puedan sonar más rápido, con mayor capacidad de respuesta y más naturales, desde los subtítulos que aparecen en el momento hasta las notas de la reunión que siguen a la conversación.
Los tres nuevos modelos de voz están incluidos en la API Realtime de OpenAI, según afirma la compañía, con este precio:
- GPT-Realtime-2 tiene un precio de 32 dólares/1 millón de tokens de entrada de audio (0,40 dólares para los tokens de entrada almacenados en caché) y 64 dólares/1 millón de tokens de salida de audio.
- GPT-Realtime-Translate cuesta $0,034 por minuto.
- GPT‑Realtime‑Whisper tiene un precio de 0,017 dólares por minuto.
Puedes probar los nuevos modelos de voz en tiempo real en Playground. Si Codex está instalado, haga clic en Enviar cuando se le solicite a continuación para agregar GPT‑Realtime‑2 a su aplicación existente o crear una nueva aplicación con ella.
Puede obtener más información sobre los últimos modelos de voz de OpenAI y cómo las empresas ya están utilizando la nueva tecnología. aquí.
FTC: Utilizamos enlaces de afiliados automáticos que generan ingresos. Más.





:max_bytes(150000):strip_icc():format(jpeg)/general2-view-of-the-cruise-ship-MV-Hondius-050426-ad10447b5d174626b4c89fc90c6e78c8.jpg?w=100&resize=100,75&ssl=1)


:max_bytes(150000):strip_icc():format(jpeg)/Giada-De-Laurentiis-counting-crows-music-050726-tout-f2bb074f3bb04df68c50e014c41ed305.jpg?w=100&resize=100,75&ssl=1)

