En respuesta a Make-A-Video de Meta, Google revelĆ³ hoy que estĆ” trabajando en Imagen Video, un sistema de inteligencia artificial que puede crear videoclips a partir de indicaciones de texto (como "un osito de peluche lavando platos"). Google afirma que Imagen Video es un paso hacia un sistema con un "alto grado de controlabilidad" y conocimiento del mundo, incluida la capacidad de generar imĆ”genes en una variedad de estilos artĆsticos. Si bien los resultados no son perfectos (los clips en bucle que genera el sistema con frecuencia tienen artefactos y ruido), la empresa reconoce que los clips en bucle del sistema tienen limitaciones.
Los sistemas de texto a video no son un desarrollo reciente, como documentĆ³ mi colega Devin Coldewey en su artĆculo sobre Make-A-Video. CogVideo, que convierte texto en videos breves de fidelidad moderada, fue presentado a principios de este aƱo por un equipo de acadĆ©micos de la Universidad de Tsinghua y la Academia de Inteligencia Artificial de Beijing. Sin embargo, Imagen Video parece ser una gran mejora con respecto al estado del arte anterior, demostrando un talento para animar subtĆtulos que los sistemas convencionales encontrarĆan un desafĆo.
SegĆŗn Matthew Guzdial, profesor asistente de la Universidad de Alberta que se especializa en inteligencia artificial y aprendizaje automĆ”tico, "claramente es una mejora". Guzdial le escribiĆ³ a TechCrunch por correo electrĆ³nico. Como puede ver en las muestras de video, incluso cuando el equipo de comunicaciones elige los mejores resultados, todavĆa hay una extraƱa borrosidad y artificio. Por lo tanto, es bastante improbable que esto se use directamente en animaciĆ³n o televisiĆ³n. Pero eso, o algo similar, sin duda podrĆa incluirse en herramientas para facilitar algo de agilizaciĆ³n.
Un mĆ©todo para crear imĆ”genes similar a DALL-E 2 y Stable Diffusion de OpenAI, Imagen Video es un desarrollo de Imagen de Google. Imagen es un ejemplo de un modelo de "difusiĆ³n", creando nuevos datos (como pelĆculas) aprendiendo a "destruir" y "recuperar" varias muestras de datos ya existentes. El modelo mejora a medida que se alimentan mĆ”s muestras, lo que le permite recuperar datos que habĆa destruido previamente para producir nuevos trabajos.
El sistema crea una pelĆcula de 16 cuadros, tres cuadros por segundo con una resoluciĆ³n de 24 por 48 pĆxeles utilizando una descripciĆ³n de texto, como explica en un artĆculo el equipo de investigaciĆ³n de Google detrĆ”s de Imagen Video. Luego, el sistema aumenta la escala y "predice" fotogramas adicionales para crear un video final con 128 fotogramas y 24 fotogramas por segundo a 720p (1280768).
Imagen Video se entrenĆ³ utilizando 14 millones de pares de video-texto, 60 millones de pares de imagen-texto y el conjunto de datos de imagen-texto LAION-400M de acceso pĆŗblico, segĆŗn Google, lo que le permitiĆ³ generalizar a una variedad de estĆ©ticas. (No es coincidencia que el entrenamiento Stable Diffusion use una pieza de LAION). Hicieron pruebas y descubrieron que Imagen Video era capaz de producir videos que parecĆan acuarelas y pinturas de Van Gogh. QuizĆ”s aĆŗn mĆ”s impresionante, afirman que Imagen Video demostrĆ³ tener una comprensiĆ³n de la profundidad y la tridimensionalidad porque pudo producir pelĆculas como drones que giran y graban objetos desde varias perspectivas sin distorsionarlos.
Imagen Video puede representar correctamente el texto, lo cual es un avance significativo con respecto a las tecnologĆas de generaciĆ³n de imĆ”genes que se utilizan en la actualidad. Stable Diffusion y DALL-E 2 tienen problemas para representar mensajes como "un logotipo para "Diffusion"" en letras legibles, mientras que Imagen Video lo hace sin ningĆŗn problema, al menos segĆŗn el artĆculo.
Sin embargo, eso no significa que Imagen Video no tenga restricciones. Incluso los clips seleccionados de Imagen Video, como Make-A-Video, son inestables y distorsionados en ciertos lugares, con cosas que se fusionan de formas fĆsicamente imposibles, como aludiĆ³ Guzdial.
En general, dijo Guzdial, "el problema de texto a video aĆŗn no estĆ” resuelto, y es poco probable que nos acerquemos pronto a algo como DALL-E 2 o Midjourney en calidad.
El equipo de Imagen Video tiene la intenciĆ³n de colaborar con los cientĆficos detrĆ”s de Phenaki, otro sistema de texto a video de Google que debutĆ³ hoy y puede producir videos de al menos dos minutos de duraciĆ³n pero de calidad inferior, para mejorar esto.
Para evaluar hacia dĆ³nde podrĆa ir una asociaciĆ³n entre los equipos, vale la pena levantar un poco el telĆ³n sobre Phenaki. Phenaki pone Ć©nfasis en la coherencia y la duraciĆ³n, mientras que Imagen Video enfatiza la calidad. El programa puede convertir sugerencias de un pĆ”rrafo en pelĆculas de cualquier duraciĆ³n, desde un motociclista hasta una nave extraterrestre sobrevolando una ciudad futurista. Los mismos errores que plagan los clips de Imagen Video tambiĆ©n afectan a los generados por Phenaki, pero me parece sorprendente lo cerca que se adhieren a las largas e intrincadas descripciones de texto que les sirvieron de inspiraciĆ³n.
Por ejemplo, Phenaki recibiĆ³ el siguiente aviso:
En el futuro, hay mucho trĆ”fico. La ciudad del futuro recibe una nave extraterrestre. La cĆ”mara entra en la nave extraterrestre. Cuando se ve a un astronauta en la habitaciĆ³n azul, la cĆ”mara avanza y se desplaza hacia allĆ. El astronauta estĆ” escribiendo actualmente en el keyboard. AlejĆ”ndose del astronauta estĆ” la cĆ”mara. El astronauta se aleja del teclado y hacia la izquierda. El astronauta se levanta y deja el teclado. MĆ”s allĆ” del astronauta, la cĆ”mara se desplaza para enfocar la pantalla. En la pantalla detrĆ”s del astronauta, puedes ver peces nadando en el ocĆ©ano. Toma un zoom de choque del pez azul. El pez azul nada hacia nosotros en el ocĆ©ano negro como la brea. A travĆ©s del agua, la cĆ”mara apunta hacia el cielo. la costa futurista de la ciudad y el ocĆ©ano. Crash zoom en la direcciĆ³n de un rascacielos moderno. Una de las numerosas ventanas estĆ” ampliada. Una habitaciĆ³n con escritorios vacĆos sirve como escenario. Los escritorios de la oficina estĆ”n siendo atropellados por un leĆ³n. Dentro de la oficina, la cĆ”mara enfoca la cara del leĆ³n. AlĆ©jese para revelar al leĆ³n en un ambiente de negocios con un traje oscuro. El que lleva el leĆ³n se vuelve hacia la cĆ”mara y sonrĆe. Lentamente, la cĆ”mara se desplaza para revelar el exterior del rascacielos. Atardecer en una ciudad contemporĆ”nea, time-lapse.
AquĆ estĆ” el video que se creĆ³:
Con respecto a Imagen Video, los investigadores tambiĆ©n seƱalan que los datos utilizados para entrenar el sistema contenĆan contenido cuestionable, lo que plantea la posibilidad de que Imagen Video produzca clips grĆ”ficamente violentos o sexualmente explĆcitos. Si bien Meta ofrecerĆ” un formulario de registro, Google, a diferencia de Meta, no lanzarĆ” el modelo de Imagen Video o el cĆ³digo fuente hasta que "estas preocupaciones se mitiguen".
Aun asĆ, el desarrollo de la tecnologĆa de texto a video sugiere que no pasarĆ” mucho tiempo antes de que aparezca un modelo de cĆ³digo abierto que impulse la creatividad humana y plantee un problema insuperable en tĆ©rminos de falsificaciones profundas, derechos de autor e informaciĆ³n falsa.
No hay comentarios.:
Publicar un comentario