Google responde a la IA de generación de video de Meta con su propia Imagen Video

En respuesta a Make-A-Video de Meta, Google reveló hoy que está trabajando en Imagen Video, un sistema de inteligencia artificial que puede crear videoclips a partir de indicaciones de texto (como "un osito de peluche lavando platos"). Google afirma que Imagen Video es un paso hacia un sistema con un "alto grado de controlabilidad" y conocimiento del mundo, incluida la capacidad de generar imágenes en una variedad de estilos artísticos. Si bien los resultados no son perfectos (los clips en bucle que genera el sistema con frecuencia tienen artefactos y ruido), la empresa reconoce que los clips en bucle del sistema tienen limitaciones.

Los sistemas de texto a video no son un desarrollo reciente, como documentó mi colega Devin Coldewey en su artículo sobre Make-A-Video. CogVideo, que convierte texto en videos breves de fidelidad moderada, fue presentado a principios de este año por un equipo de académicos de la Universidad de Tsinghua y la Academia de Inteligencia Artificial de Beijing. Sin embargo, Imagen Video parece ser una gran mejora con respecto al estado del arte anterior, demostrando un talento para animar subtítulos que los sistemas convencionales encontrarían un desafío.

Según Matthew Guzdial, profesor asistente de la Universidad de Alberta que se especializa en inteligencia artificial y aprendizaje automático, "claramente es una mejora". Guzdial le escribió a TechCrunch por correo electrónico. Como puede ver en las muestras de video, incluso cuando el equipo de comunicaciones elige los mejores resultados, todavía hay una extraña borrosidad y artificio. Por lo tanto, es bastante improbable que esto se use directamente en animación o televisión. Pero eso, o algo similar, sin duda podría incluirse en herramientas para facilitar algo de agilización.

Un método para crear imágenes similar a DALL-E 2 y Stable Diffusion de OpenAI, Imagen Video es un desarrollo de Imagen de Google. Imagen es un ejemplo de un modelo de "difusión", creando nuevos datos (como películas) aprendiendo a "destruir" y "recuperar" varias muestras de datos ya existentes. El modelo mejora a medida que se alimentan más muestras, lo que le permite recuperar datos que había destruido previamente para producir nuevos trabajos.

El sistema crea una película de 16 cuadros, tres cuadros por segundo con una resolución de 24 por 48 píxeles utilizando una descripción de texto, como explica en un artículo el equipo de investigación de Google detrás de Imagen Video. Luego, el sistema aumenta la escala y "predice" fotogramas adicionales para crear un video final con 128 fotogramas y 24 fotogramas por segundo a 720p (1280768).

Imagen Video se entrenó utilizando 14 millones de pares de video-texto, 60 millones de pares de imagen-texto y el conjunto de datos de imagen-texto LAION-400M de acceso público, según Google, lo que le permitió generalizar a una variedad de estéticas. (No es coincidencia que el entrenamiento Stable Diffusion use una pieza de LAION). Hicieron pruebas y descubrieron que Imagen Video era capaz de producir videos que parecían acuarelas y pinturas de Van Gogh. Quizás aún más impresionante, afirman que Imagen Video demostró tener una comprensión de la profundidad y la tridimensionalidad porque pudo producir películas como drones que giran y graban objetos desde varias perspectivas sin distorsionarlos.

Imagen Video puede representar correctamente el texto, lo cual es un avance significativo con respecto a las tecnologías de generación de imágenes que se utilizan en la actualidad. Stable Diffusion y DALL-E 2 tienen problemas para representar mensajes como "un logotipo para "Diffusion"" en letras legibles, mientras que Imagen Video lo hace sin ningún problema, al menos según el artículo.

Sin embargo, eso no significa que Imagen Video no tenga restricciones. Incluso los clips seleccionados de Imagen Video, como Make-A-Video, son inestables y distorsionados en ciertos lugares, con cosas que se fusionan de formas físicamente imposibles, como aludió Guzdial.

En general, dijo Guzdial, "el problema de texto a video aún no está resuelto, y es poco probable que nos acerquemos pronto a algo como DALL-E 2 o Midjourney en calidad.

El equipo de Imagen Video tiene la intención de colaborar con los científicos detrás de Phenaki, otro sistema de texto a video de Google que debutó hoy y puede producir videos de al menos dos minutos de duración pero de calidad inferior, para mejorar esto.

Para evaluar hacia dónde podría ir una asociación entre los equipos, vale la pena levantar un poco el telón sobre Phenaki. Phenaki pone énfasis en la coherencia y la duración, mientras que Imagen Video enfatiza la calidad. El programa puede convertir sugerencias de un párrafo en películas de cualquier duración, desde un motociclista hasta una nave extraterrestre sobrevolando una ciudad futurista. Los mismos errores que plagan los clips de Imagen Video también afectan a los generados por Phenaki, pero me parece sorprendente lo cerca que se adhieren a las largas e intrincadas descripciones de texto que les sirvieron de inspiración.

Por ejemplo, Phenaki recibió el siguiente aviso:

En el futuro, hay mucho tráfico. La ciudad del futuro recibe una nave extraterrestre. La cámara entra en la nave extraterrestre. Cuando se ve a un astronauta en la habitación azul, la cámara avanza y se desplaza hacia allí. El astronauta está escribiendo actualmente en el keyboard. Alejándose del astronauta está la cámara. El astronauta se aleja del teclado y hacia la izquierda. El astronauta se levanta y deja el teclado. Más allá del astronauta, la cámara se desplaza para enfocar la pantalla. En la pantalla detrás del astronauta, puedes ver peces nadando en el océano. Toma un zoom de choque del pez azul. El pez azul nada hacia nosotros en el océano negro como la brea. A través del agua, la cámara apunta hacia el cielo. la costa futurista de la ciudad y el océano. Crash zoom en la dirección de un rascacielos moderno. Una de las numerosas ventanas está ampliada. Una habitación con escritorios vacíos sirve como escenario. Los escritorios de la oficina están siendo atropellados por un león. Dentro de la oficina, la cámara enfoca la cara del león. Aléjese para revelar al león en un ambiente de negocios con un traje oscuro. El que lleva el león se vuelve hacia la cámara y sonríe. Lentamente, la cámara se desplaza para revelar el exterior del rascacielos. Atardecer en una ciudad contemporánea, time-lapse.

Aquí está el video que se creó:

Con respecto a Imagen Video, los investigadores también señalan que los datos utilizados para entrenar el sistema contenían contenido cuestionable, lo que plantea la posibilidad de que Imagen Video produzca clips gráficamente violentos o sexualmente explícitos. Si bien Meta ofrecerá un formulario de registro, Google, a diferencia de Meta, no lanzará el modelo de Imagen Video o el código fuente hasta que "estas preocupaciones se mitiguen".

Aun así, el desarrollo de la tecnología de texto a video sugiere que no pasará mucho tiempo antes de que aparezca un modelo de código abierto que impulse la creatividad humana y plantee un problema insuperable en términos de falsificaciones profundas, derechos de autor e información falsa.

fuente: https://techcrunch.com