En días recientes, Meta dio a conocer Movie Gen, una herramienta de IA generativa que permitirá a los usuarios a partir de simples entradas de texto, producir videos y sonidos personalizados; editar videos existentes y transformar su imagen personal en un video único.
De acuerdo con el gigante tecnológico, Movie Gen supera a modelos similares del sector en estas tareas cuando son evaluados por humanos.
Meta, tercera oleada con Movie Gen de IA generativa
La primera oleada de trabajo de Meta en IA generativa comenzó con la serie de modelos Make-A-Scene, que permitían crear imágenes, audio, video y animación 3D.
Con la llegada de los modelos de difusión, la empresa tuvo una segunda oleada de trabajo con los modelos de la fundación Llama Image, que permitían generar imágenes y video de mayor calidad, así como editar imágenes.
Movie Gen es su tercera oleada, que combina todas estas modalidades y permite un control más preciso para las personas que utilizan los modelos de una forma que nunca antes había sido posible.
Al igual que las generaciones anteriores, Meta prevé que estos modelos permiten crear varios productos nuevos que podrían acelerar la creatividad.
Movie Gen tiene cuatro capacidades: generación de video, generación de video personalizada, edición precisa de video y generación de audio. Estos modelos se han entrenado con una combinación de conjuntos de datos con licencia y de acceso público.
Generación de video
A partir de un texto, los usuarios pueden utilizar un modelo conjunto optimizado tanto para la conversión de texto en imagen como para la conversión de texto en video, con el fin de crear imágenes y videos de alta calidad y definición.
Por su parte, este modelo es capaz de generar videos de hasta 16 segundos a una velocidad de 16 fotogramas por segundo.
Estos modelos pueden razonar sobre el movimiento de los objetos, las interacciones sujeto-objeto y el movimiento de la cámara, y pueden aprender movimientos plausibles para una amplia variedad de conceptos, lo que los convierte en los modelos más avanzados de su categoría, según Meta.
Videos personalizados
Meta también ha ampliado el modelo de base anterior para dar soporte a la generación de videos personalizados tomando como entrada la imagen de una persona y combinándola con una indicación de texto para generar un video que contenga la persona de referencia y ricos detalles visuales informados por la indicación de texto.
El modelo logra resultados de vanguardia en la creación de videos personalizados que preservan la identidad humana y el movimiento.
Edición precisa de video
La variante de edición del mismo modelo de base toma como entrada tanto video como texto, ejecutando tareas con precisión para generar el resultado deseado.
Combina la generación de video con la edición avanzada de imágenes, realizando ediciones localizadas como añadir, eliminar o sustituir elementos, y cambios globales como modificaciones del fondo o del estilo.
A diferencia de las herramientas tradicionales, que requieren conocimientos especializados, o de las generativas, que carecen de precisión, Movie Gen preserva el contenido original, centrándose solo en los píxeles relevantes.
El modelo de generación de audio puede tomar un video e indicaciones de texto opcionales y generar audio de alta calidad y alta fidelidad de hasta 45 segundos, incluyendo sonido ambiente, efectos de sonido (Foley) y música instrumental de fondo, todo ello sincronizado con el contenido del video.
Además, Meta introduce una técnica de extensión de audio que puede generar audio coherente para videos de longitudes arbitrarias, logrando en conjunto un rendimiento de vanguardia en calidad de audio, alineación video-audio y alineación texto-audio.
Motivo de preocupación
Creativos como cineastas, fotógrafos, artistas, escritores y actores también se preocupan por cómo afectarán los generadores de IA a sus medios de vida. Sin embargo, Meta insiste en que la IA generativa no pretende sustituir el trabajo de artistas y animadores.
Su visión es que «quizás un día en el futuro, todo el mundo tenga la oportunidad de dar vida a sus visiones artísticas y crear vídeos y audio de alta definición utilizando Movie Gen».
No dejes de leer: ¿Qué es AInSights y por qué revoluciona el mundo de la radiología en Pensilvania?
Sigue nuestras redes sociales y se parte de nuestra comunidad