[Tendenc-IA] Sora: La revolución de la generación de vídeo por texto

Escrito por Roberto Amorós

OpenAI presenta su nuevo modelo capaz de crear vídeos a partir de descripciones textuales

Durante estos últimos años se han realizado grandes avances en el campo de la IA, desde la popularización de los Large Language Models (LLMs) se ha invertido mucho esfuerzo en el desarrollo de los Multimodal Large Language Models (MLLMs), que permiten tener como entrada o salida del modelo diferentes formatos, como texto, imagen o vídeo. La evolución lógica es llegar a utilizar lo conocido como Any-to-Any Multimodal LLM que permitirán utilizar una misma herramienta para introducir cualquier formato y obtener cualquier tipo de output.

En el caso de Sora, nos encontramos ante un modelo que como input tiene texto y como output tendrá un vídeo. Antes, existían otros modelos como, por ejemplo, Emu de Meta, Gen-2 de Runway o Lumiere de Google. Pero Sora ha dado un golpe sobre la mesa con claras ventajas respecto a éstos brillando respecto a ellos sobre todo en:

  • Mayor consistencia: Los modelos previos sufren a la hora de crear un vídeo que sea consistente fotograma por fotograma manteniendo el mismo personaje o patrón durante un minuto completo.
  • Mayor realismo: OpenAI ha conseguido entrenar el modelo para que tenga una buena comprensión del mundo y pueda simular la realidad tanto a nivel visual como físico.
  • Mayor duración: Capaz de crear vídeos de 60 segundos con una calidad FullHD

El proceso es asombrosamente sencillo. Los usuarios proporcionan una descripción textual detallada de lo que quieren ver en el vídeo. Sora interpreta la entrada y crea una secuencia visual con una coherencia sin precedentes en los modelos de texto a vídeo. Desde escenas épicas hasta momentos cotidianos, Sora parece poder dar vida a cualquier idea.

Casos de uso

1. Producción de cine y televisión: Imagine a los guionistas colaborando con Sora para visualizar sus ideas antes de filmar. Los directores podrían experimentar con diferentes enfoques visuales antes de rodar una escena.

2. Educación y formación: Sora podría generar tutoriales visuales, demostraciones de productos o simulaciones de procesos complejos.

3. Publicidad y marketing: Las marcas podrían crear anuncios impactantes, ahorrando tiempo y recursos en la producción.

4. Uso personal: Sora tiene la capacidad de generar contenido a partir de una foto. ¿Por qué no crear vídeos personales a partir de nuestro álbum de fotos?

Desafíos

A pesar de que Sora es una tecnología con mucho potencial, también plantea muchos desafíos y riesgos para la sociedad. En particular, el desarrollo de Sora nos plantea problemas éticos y legales relacionados con el impacto de los vídeos que crea, ¿qué pasa si Sora crea un vídeo que usa imágenes o sonidos protegidos por derechos de autor? ¿Qué pasa si Sora crea un vídeo que ofende o perjudica a alguien? ¿Quién es el responsable de las consecuencias?

Más allá de que el desarrollo de los modelos pueda evitar ciertos sesgos o temas éticos, pensamos que la sociedad debe ser consciente de que las implicaciones de la IA están en manos de las personas y por tanto es la responsabilidad de todos y cada uno de nosotros que el uso de este tipo de herramientas respete la dignidad de las personas. Seguiremos la pista de cerca para ver cómo evoluciona tanto la herramienta, como todas estas cuestiones que se derivan alrededor de ella.

Roberto Amoros OK

Autor: Roberto Amorós

Roberto Amorós es Data Scientist en Sportian (antes conocido como LaLiga Tech) y ha desarrollado múltiples proyecto que aplican la IA para sacar el máximo valor en el fútbol.

En la actualidad es además City Leader y fundador de Ciudad Real AI, y colabora en muchas ocasiones como impulsor en Madrid, dentro de la asociación Spain AI.