GPT 4o acepta cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen.
OpenAI dio a conocer su nuevo modelo de inteligencia artificialEs la combinación de algoritmos planteados con el propósito de crear máquinas que presenten las mismas capacidades que el ser humano. Fuente: opensource.org generativa, GPT 4o (o de omni), con capacidades de producción y comprensión de texto, imágenes y sonidos.
En conferencia virtual, Mira Murati, directora tecnológica de la compañía, informó que será de acceso gratuito.
“GPT-4o es nuestro último paso para ampliar los límites del aprendizaje profundo, esta vez en la dirección de la usabilidad práctica.
“Dedicamos mucho esfuerzo durante los últimos dos años a trabajar en mejoras de eficiencia en cada capa”, precisa el comunicado.
Así, el nuevo modelo, acepta cualquier combinación de texto, audio e imagen y genera cualquier combinación de salidas de texto, audio e imagen.
Modo de voz más rápido
En el caso de la voz, señala que puede responder a entradas de audio, en tan solo 232 milisegundos, con un promedio de 320 milisegundos; similar al tiempo de respuesta de una persona en una conversación.
Antes, en voz, presentaba latencias de 2,8 segundos (GPT-3.5) y 5,4 segundos (GPT-4) en promedio, porque trabajaba con tres modelos separados.
Con la versión Omni, es un solo modelo extremo a extremo en texto, visión y audio en una sola red neuronal.
La firma destaca que es mejor en cuanto a visión y comprensión de audio en comparación con los modelos existentes.
Refuerza la seguridad
Agrega que cuenta con una mejora significativa en texto en diferentes idiomas; es más rápido y 50% más económico en la API y es capaz de realizar traducciones en tiempo real en más de 50 idiomas diferentes.
GPT-4o, menciona, tiene seguridad incorporada por diseño en todas las modalidades.
Te puede interesar leer: Jóvenes usan al ChatGPT como novio
A través de técnicas como filtrar datos de entrenamiento y refinar el comportamiento del modelo mediante el entrenamiento posterior.
Así como, nuevos sistemas de seguridad para proporcionar barreras en las salidas de voz.
Mejoraron las evaluaciones de ciberseguridad, persuasión y autonomía del modelo.
Fue probado por un equipo de especialistas en psicología social, prejuicios, equidad e información errónea para identificar riesgos.
Primera versión con audios limitados
Sin embargo, la compañía reconoce que las modalidades de audio presentan una variedad de riesgos novedosos, por lo que en su primera versión estará acotada.
“En el lanzamiento, las salidas de audio se limitarán a una selección de voces preestablecidas y cumplirán con nuestras políticas de seguridad existentes”, detalla en su sitio.
Integrado al ChatGPT
Las capacidades de texto e imagen de GPT-4o ya se están implementando en ChatGPT.
“Estamos haciendo que GPT-4o esté disponible en el nivel gratuito y para usuarios Plus con límites de mensajes hasta 5 veces mayores”, destacó.
Mientras que la versión en modo de voz estará disponible en el ChatGPT Plus en las próximas semanas.
Los desarrolladores también pueden acceder a GPT-4o en la API como modelo de texto y visión.