De texto a video con Sora, la IA de OpenAI

De texto a video con Sora, la IA de OpenAI

Sora es capaz de generar escenas complejas con múltiples personajes, movimientos específicos y detalles precisos. 

Este jueves, OpenAI presentó en su blog a Sora, su nueva inteligencia artificial (IA) que trabaja modelos de texto a videos con hasta un minuto de duración.

“Le estamos enseñando a la IA a comprender y simular el mundo físico en movimiento, para que ayude a las personas a resolver problemas que requieren interacción con el mundo real”, destaca la compañía.

Sora puede generar videos de hasta un minuto de duración manteniendo la calidad visual y el cumplimiento de las indicaciones del usuario.

Se trata de un modelo similar a la tecnología de los startups Runway y Pika Labs.

Te puede interesar leer: Autoridades de EU y UK investigan acuerdo de Microsoft y Open AI

Pero, por el momento -menciona- solo está disponible para los miembros del equipo rojo de la organización, a fin de evaluar áreas críticas en busca de daños o riesgos. 

Así como, una serie de artistas visuales, diseñadores y cineastas, para obtener su feedback sobre cómo hacer que el modelo sea más útil para los profesionales creativos.

Alcances de Sora

La firma argumenta que su nueva IA es capaz de generar escenas complejas con múltiples personajes, tipos específicos de movimiento y, detalles precisos del sujeto y el fondo. 

El modelo comprende no sólo lo que el usuario ha pedido en el mensaje, también cómo existen esas cosas en el mundo físico.

El modelo tiene un profundo conocimiento del lenguaje, lo que le permite interpretar indicaciones con precisión y generar personajes convincentes, que expresan emociones.

También, puede crear múltiples tomas dentro de un solo video generado, que persisten con precisión los personajes y el estilo visual”, precisa el documento.

Retos por resolver

Al tiempo, que reconoce que aún tiene dificultades para simular con precisión la física de una escena compleja y es posible que no comprenda casos específicos de causa y efecto. 

Por ejemplo, una persona puede darle un mordisco a una galleta, pero después, es posible que la galleta no tenga la marca del mordisco.

Así como, algunas dificultades con descripciones precisas de eventos, que tienen lugar a lo largo del tiempo, como seguir una trayectoria de cámara específica.

Integrará candados de seguridad

En la parte de seguridad, OpenAI detalla que crea herramientas para ayudar a detectar contenido engañoso, como un clasificador que le indique cuándo Sora genere un video.

Planeamos incluir metadatos de C2PA en el futuro si implementamos el modelo en un producto de la compañía.

Además de, aprovechar los métodos que ya se crearon para DALL·E 3”, precisa el blog.

Por ejemplo, el clasificador de texto verificará y rechazará las solicitudes de ingreso de texto que infrinjan nuestras políticas de uso.

Como los contenidos con violencia extrema, sexual y de odio, imágenes de celebridades o la IP de otros. 

El cual, se complementará con el clasificador de imágenes sólidas para revisar los fotogramas de cada video generado, para garantizar que cumpla con las políticas de uso.

¿Cómo fue el resultado de tus ventas en el Buen Fin?