Esta es una compaƱƭa de medios de noticias dedicada a informarle las noticias mĆ”s importantes del dĆ­a y ayudarlo a descubrir un nuevo artista. Somos el sitio web de descubrimiento de artistas prĆ³ximo nĆŗmero uno porque aprendemos a combinar noticias generales con mĆŗsica.

Post Page Advertisement [Top]

please follow/ por favor seguir

subscribirte para recibir las noticias importante del dia de la musica

comparti tu musica aqui

Submit your music to us using Share Pro

publicidad


 En respuesta a Make-A-Video de Meta, Google revelĆ³ hoy que estĆ” trabajando en Imagen Video, un sistema de inteligencia artificial que puede crear videoclips a partir de indicaciones de texto (como "un osito de peluche lavando platos"). Google afirma que Imagen Video es un paso hacia un sistema con un "alto grado de controlabilidad" y conocimiento del mundo, incluida la capacidad de generar imĆ”genes en una variedad de estilos artĆ­sticos. Si bien los resultados no son perfectos (los clips en bucle que genera el sistema con frecuencia tienen artefactos y ruido), la empresa reconoce que los clips en bucle del sistema tienen limitaciones.


Los sistemas de texto a video no son un desarrollo reciente, como documentĆ³ mi colega Devin Coldewey en su artĆ­culo sobre Make-A-Video. CogVideo, que convierte texto en videos breves de fidelidad moderada, fue presentado a principios de este aƱo por un equipo de acadĆ©micos de la Universidad de Tsinghua y la Academia de Inteligencia Artificial de Beijing. Sin embargo, Imagen Video parece ser una gran mejora con respecto al estado del arte anterior, demostrando un talento para animar subtĆ­tulos que los sistemas convencionales encontrarĆ­an un desafĆ­o.


SegĆŗn Matthew Guzdial, profesor asistente de la Universidad de Alberta que se especializa en inteligencia artificial y aprendizaje automĆ”tico, "claramente es una mejora". Guzdial le escribiĆ³ a TechCrunch por correo electrĆ³nico. Como puede ver en las muestras de video, incluso cuando el equipo de comunicaciones elige los mejores resultados, todavĆ­a hay una extraƱa borrosidad y artificio. Por lo tanto, es bastante improbable que esto se use directamente en animaciĆ³n o televisiĆ³n. Pero eso, o algo similar, sin duda podrĆ­a incluirse en herramientas para facilitar algo de agilizaciĆ³n.


Un mĆ©todo para crear imĆ”genes similar a DALL-E 2 y Stable Diffusion de OpenAI, Imagen Video es un desarrollo de Imagen de Google. Imagen es un ejemplo de un modelo de "difusiĆ³n", creando nuevos datos (como pelĆ­culas) aprendiendo a "destruir" y "recuperar" varias muestras de datos ya existentes. El modelo mejora a medida que se alimentan mĆ”s muestras, lo que le permite recuperar datos que habĆ­a destruido previamente para producir nuevos trabajos.


El sistema crea una pelĆ­cula de 16 cuadros, tres cuadros por segundo con una resoluciĆ³n de 24 por 48 pĆ­xeles utilizando una descripciĆ³n de texto, como explica en un artĆ­culo el equipo de investigaciĆ³n de Google detrĆ”s de Imagen Video. Luego, el sistema aumenta la escala y "predice" fotogramas adicionales para crear un video final con 128 fotogramas y 24 fotogramas por segundo a 720p (1280768).


Imagen Video se entrenĆ³ utilizando 14 millones de pares de video-texto, 60 millones de pares de imagen-texto y el conjunto de datos de imagen-texto LAION-400M de acceso pĆŗblico, segĆŗn Google, lo que le permitiĆ³ generalizar a una variedad de estĆ©ticas. (No es coincidencia que el entrenamiento Stable Diffusion use una pieza de LAION). Hicieron pruebas y descubrieron que Imagen Video era capaz de producir videos que parecĆ­an acuarelas y pinturas de Van Gogh. QuizĆ”s aĆŗn mĆ”s impresionante, afirman que Imagen Video demostrĆ³ tener una comprensiĆ³n de la profundidad y la tridimensionalidad porque pudo producir pelĆ­culas como drones que giran y graban objetos desde varias perspectivas sin distorsionarlos.


Imagen Video puede representar correctamente el texto, lo cual es un avance significativo con respecto a las tecnologĆ­as de generaciĆ³n de imĆ”genes que se utilizan en la actualidad. Stable Diffusion y DALL-E 2 tienen problemas para representar mensajes como "un logotipo para "Diffusion"" en letras legibles, mientras que Imagen Video lo hace sin ningĆŗn problema, al menos segĆŗn el artĆ­culo.



Sin embargo, eso no significa que Imagen Video no tenga restricciones. Incluso los clips seleccionados de Imagen Video, como Make-A-Video, son inestables y distorsionados en ciertos lugares, con cosas que se fusionan de formas fĆ­sicamente imposibles, como aludiĆ³ Guzdial.


En general, dijo Guzdial, "el problema de texto a video aĆŗn no estĆ” resuelto, y es poco probable que nos acerquemos pronto a algo como DALL-E 2 o Midjourney en calidad.


El equipo de Imagen Video tiene la intenciĆ³n de colaborar con los cientĆ­ficos detrĆ”s de Phenaki, otro sistema de texto a video de Google que debutĆ³ hoy y puede producir videos de al menos dos minutos de duraciĆ³n pero de calidad inferior, para mejorar esto.


Para evaluar hacia dĆ³nde podrĆ­a ir una asociaciĆ³n entre los equipos, vale la pena levantar un poco el telĆ³n sobre Phenaki. Phenaki pone Ć©nfasis en la coherencia y la duraciĆ³n, mientras que Imagen Video enfatiza la calidad. El programa puede convertir sugerencias de un pĆ”rrafo en pelĆ­culas de cualquier duraciĆ³n, desde un motociclista hasta una nave extraterrestre sobrevolando una ciudad futurista. Los mismos errores que plagan los clips de Imagen Video tambiĆ©n afectan a los generados por Phenaki, pero me parece sorprendente lo cerca que se adhieren a las largas e intrincadas descripciones de texto que les sirvieron de inspiraciĆ³n.



Por ejemplo, Phenaki recibiĆ³ el siguiente aviso:


En el futuro, hay mucho trĆ”fico. La ciudad del futuro recibe una nave extraterrestre. La cĆ”mara entra en la nave extraterrestre. Cuando se ve a un astronauta en la habitaciĆ³n azul, la cĆ”mara avanza y se desplaza hacia allĆ­. El astronauta estĆ” escribiendo actualmente en el keyboard. AlejĆ”ndose del astronauta estĆ” la cĆ”mara. El astronauta se aleja del teclado y hacia la izquierda. El astronauta se levanta y deja el teclado. MĆ”s allĆ” del astronauta, la cĆ”mara se desplaza para enfocar la pantalla. En la pantalla detrĆ”s del astronauta, puedes ver peces nadando en el ocĆ©ano. Toma un zoom de choque del pez azul. El pez azul nada hacia nosotros en el ocĆ©ano negro como la brea. A travĆ©s del agua, la cĆ”mara apunta hacia el cielo. la costa futurista de la ciudad y el ocĆ©ano. Crash zoom en la direcciĆ³n de un rascacielos moderno. Una de las numerosas ventanas estĆ” ampliada. Una habitaciĆ³n con escritorios vacĆ­os sirve como escenario. Los escritorios de la oficina estĆ”n siendo atropellados por un leĆ³n. Dentro de la oficina, la cĆ”mara enfoca la cara del leĆ³n. AlĆ©jese para revelar al leĆ³n en un ambiente de negocios con un traje oscuro. El que lleva el leĆ³n se vuelve hacia la cĆ”mara y sonrĆ­e. Lentamente, la cĆ”mara se desplaza para revelar el exterior del rascacielos. Atardecer en una ciudad contemporĆ”nea, time-lapse.


AquĆ­ estĆ” el video que se creĆ³:


Con respecto a Imagen Video, los investigadores tambiĆ©n seƱalan que los datos utilizados para entrenar el sistema contenĆ­an contenido cuestionable, lo que plantea la posibilidad de que Imagen Video produzca clips grĆ”ficamente violentos o sexualmente explĆ­citos. Si bien Meta ofrecerĆ” un formulario de registro, Google, a diferencia de Meta, no lanzarĆ” el modelo de Imagen Video o el cĆ³digo fuente hasta que "estas preocupaciones se mitiguen".


Aun asĆ­, el desarrollo de la tecnologĆ­a de texto a video sugiere que no pasarĆ” mucho tiempo antes de que aparezca un modelo de cĆ³digo abierto que impulse la creatividad humana y plantee un problema insuperable en tĆ©rminos de falsificaciones profundas, derechos de autor e informaciĆ³n falsa. 


fuente: https://techcrunch.com

No hay comentarios.:

Publicar un comentario

Bottom Ad [Post Page]