Lumiere de Google acerca los vídeos con IA a lo real que a lo irreal


 Las películas de cinco segundos de Lumiere demuestran cómo los algoritmos de inteligencia artificial pueden crear videos a partir de un mensaje con movimiento realista.


Lumiere, el nuevo modelo de IA de producción de vídeo de Google, emplea un novedoso modelo de difusión conocido como Space-Time-U-Net, o STUNet, para determinar dónde están los elementos en una película (espacio) y cómo se mueven y cambian al mismo tiempo (tiempo). ). Según Ars Technica, este método permite a Lumiere crear el vídeo en una sola operación en lugar de ensamblar fotogramas más pequeños.



Lumiere comienza generando un marco básico a partir del mensaje. Luego, el marco STUNet se utiliza para aproximar dónde viajarán los elementos dentro de ese marco, lo que da como resultado más cuadros que fluyen entre sí, dando la apariencia de movimiento continuo. Lumiere también produce 80 fotogramas frente a los 25 fotogramas de Stable Video Diffusion.


Es cierto que soy más un reportero de textos que un tipo de videos, pero el chisporroteo de Google, junto con un estudio científico preimpreso, demuestra que las capacidades de generación y edición de videos de IA han progresado desde un valle inquietante hasta casi realistas en tan solo unos pocos años. . También coloca la tecnología de Google en un campo anteriormente ocupado por competidores como Runway, Stable Video Diffusion y Meta's Emu. Runway, una de las primeras plataformas de texto a video del mercado masivo, lanzó Runway Gen-2 en marzo del año pasado y ha comenzado a ofrecer películas de apariencia más realista. Las imágenes de la pista también tienen dificultades para capturar el movimiento.


Google tuvo la amabilidad de compartir clips y preguntas en el sitio web de Lumiere, lo que me permitió ejecutar las mismas indicaciones a través de Runway para compararlas. Estos son los resultados:


Otros enfoques unen películas utilizando fotogramas clave creados donde el movimiento ya ha ocurrido (similar a los dibujos en un libro animado), mientras que STUNet permite a Lumiere centrarse en el movimiento en sí dependiendo de dónde debería estar la información generada en un momento dado en el vídeo. .



Google no ha sido un actor importante en el espacio de texto a video, pero gradualmente ha desarrollado modelos de IA más complejos y ha evolucionado hacia un enfoque más multimodal. Su modelo de lenguaje grande Gemini eventualmente permitirá la generación de imágenes en Bard. Lumiere aún no está disponible para realizar pruebas, pero demuestra la capacidad de Google para crear una plataforma de video de IA que es equivalente, y quizás algo mejor, a los generadores de video de IA ampliamente disponibles, como Runway y Pika. Y, como recordatorio, aquí es donde estaba Google con los vídeos con IA hace dos años.




Además de la generación de texto a vídeo, Lumiere proporcionará generación de imagen a vídeo, generación de estilos, que permite a los usuarios crear películas de una manera específica, cinemagraphs, que animan sólo una parte de un vídeo, e inpainting, que permite Los usuarios pueden enmascarar una región del vídeo para modificar el color o el patrón.



Sin embargo, como señaló el artículo Lumiere de Google, "existe el riesgo de un uso indebido al crear contenido falso o dañino con nuestra tecnología, y creemos que es crucial desarrollar y aplicar herramientas para detectar sesgos y casos de uso maliciosos para garantizar una seguridad y uso justo." Los autores del artículo no explicaron cómo se puede lograr esto.


full post original aqui: theverge

Publicar un comentario

Artículo Anterior Artículo Siguiente