OpenAI lanzó gpt-realtime, su nuevo modelo de voz: ¿qué ofrece?

La empresa de inteligencia artificial OpenAI se sumó al mercado de voz generado por IA con el lanzamiento de su nuevo modelo, gpt-realtime que, según la compañía, sigue instrucciones complejas y ofrece voces que suenan más naturales y expresivas.

El modelo estará disponible en la API Realtime, que la compañía también ha puesto a disposición del público general. Junto con el modelo gpt-realtime, OpenAI también lanzó nuevas voces en la API, llamadas Cedar y Marin, y actualizó sus otras voces para que funcionen con el modelo más reciente.

La empresa con sede en San Francisco declaró en una transmisión en vivo que trabajó con sus clientes que desarrollan aplicaciones de voz para entrenar el modelo gpt-realtime y que alineó cuidadosamente el modelo con las evaluaciones basadas en escenarios reales como la atención al cliente y la tutoría académica.

OpenAI destacó la capacidad del modelo para crear voces emotivas y naturales que se alinean con la forma en que los desarrolladores se relacionan con la tecnología.

Modelo de voz a voz en el mercado de la IA

El modelo gpt-realtime de OpenAI opera dentro de un marco de voz a voz, lo que le permite comprender indicaciones habladas y responder vocalmente. Los modelos de voz a voz son ideales para respuestas en tiempo real, donde una persona, generalmente un cliente, interactúa con una aplicación.

Por ejemplo, un cliente desea devolver algunos productos y llama a una plataforma de atención al cliente. Podría estar hablando con un asistente de voz con IA que responde a preguntas y solicitudes como si estuviera hablando con un humano.

OpenAI afirmó que gpt-realtime es su «modelo de voz más avanzado y listo para producción». Al igual que sus otros modelos de voz, puede cambiar de idioma a mitad de frase. Sin embargo, los investigadores de OpenAI observaron que gpt-realtime puede seguir instrucciones más complejas.

Pero gpt-realtime se enfrenta a la competencia de otros modelos que muchas marcas ya utilizan. Por ejemplo, ElevenLabs lanzó Conversation AI 2.0 en mayo; Soundhound se asoció con franquicias de comida rápida para ofrecer un servicio de autoservicio con voz en IA; la startup Hume, especializada en IA enfática, ha lanzado su modelo EVI 3, que permite a los usuarios generar versiones de IA de su propia voz.

Mejor seguimiento de instrucciones

OpenAI afirmó que su modelo de voz gpt-realtime es más inteligente y comprende mejor el audio nativo, incluyendo la capacidad de captar señales no verbales como risas o suspiros.

Las pruebas comparativas realizadas con la herramienta de evaluación Big Bench Audio mostraron que el modelo obtuvo una precisión del 82,8 %, en comparación con su modelo anterior, que obtuvo un 65,6 %. OpenAI no proporcionó cifras de las pruebas de gpt-realtime frente a los modelos de la competencia.

OpenAI se centró en mejorar las capacidades de seguimiento de instrucciones del modelo, garantizando que siguiera las instrucciones con mayor eficacia. El nuevo modelo alcanza una puntuación del 30,5 % en la prueba de audio MultiChallenge. Los ingenieros también reforzaron las llamadas a funciones para que gpt-realtime pueda acceder a las herramientas adecuadas.

OpenAI redujo los precios de gpt-realtime en un 20 %, a 32 dólares por millón de tokens de entrada de audio y a 64 dólares por millón de tokens de salida de audio.

Información de VentureBeat / Redacción Noti AI

No dejes de leer: YouTube recibe críticas por editar videos con IA sin el consentimiento de los creadores

Sigue nuestras redes sociales y se parte de nuestra comunidad

Instagram

YouTube

TikTok