Aparecen en pantalla tres Audrey Hepburn casi perfectas: cantan, hablan y su expresión es tan real que ya nada volverá a ser lo mismo

Prepárate para que te vuele la cabeza, a ti y a toda una industria audiovisual que debe estar dando vueltas sobre sí misma.

Miguel Jorge

28 de febrero de 2024

2 minutos

Algoritmo, Cine, EMO, Emote Portrait Alive, IA, OpenAI

La primera imagen a la izquierda del vídeo que vamos a ver a continuación es un fotograma congelado de Audrey Hepburn interpretando a la princesa Anna en la película Vacaciones en Roma (1953). La segunda también nos muestra a la actriz en el mismo escenario. En este caso, es un pequeño clip de la película donde sale cantando. Sin embargo, hay algo raro. Hepburn está interpretando la canción Perfect, de Samantha Harvey, un single que salió en 2020. Por último, la tercera imagen nos muestra otra vez la misma escena, pero esta vez es un clip donde Hepburn, en vez de cantar, nos está dando un discurso perfecto.

¿Qué clase de brujería es esta?

Cuando OpenAI presentó ese tráiler casi perfecto de su nueva herramienta Sora, capaz de generar vídeo a través de texto, nos quedamos asombrados vislumbrando la revolución que puede suponer. Lo que se acaba de presentar es, si cabe, aún más espectacular. Me pregunto que estarán pensando en la industria cinematográfica cuando vean cosas como estas. Nunca pensé que este nivel de detalle en la sincronización del diálogo con la expresión humana le iba a llevar tan poco tiempo a la inteligencia artificial. Es ridículo lo increíblemente bien que se ven todas y cada una de las animaciones.

Lo que vamos a ver a continuación es un trabajo publicado hace unas horas en Arxiv por Linrui Tian, Qi Wang, Bang Zhang y Liefeng Bo, todos investigadores del Instituto de Inteligencia en Computación de Alibaba Group. Lo que presentan: su programa EMO (Emote Portrait Alive) diseñado para generar videos de retratos expresivos en condiciones de todo tipo. Un modelo alucinante que aprovecha la técnica de Audio2Video Diffusion, lo que permite la síntesis de animaciones realistas que reflejan las expresiones humanas y los movimientos de la cabeza con una precisión ciertamente asombrosa.

Veamos la alucinante secuencia:

Como vemos en las diferentes secuencias del trabajo recientemente publicado, EMO se destaca por su capacidad para crear videos a partir de una única imagen de referencia y entrada de audio (una foto, un fotograma, un cuadro, un manga…), puede ser un discurso o una canción, produciendo animaciones con expresiones faciales matizadas y posturas dinámicas de la cabeza.

No encuentro palabras para definir bien lo que parece que han logrado. A diferencia de los métodos tradicionales que se basan en modelos 3D o puntos de referencia faciales, el nuevo programa utiliza un enfoque de síntesis directa de audio a video. Dicho de otra forma: hablamos de la capacidad de generar transiciones con resultados tan perfectos como los reales, y de darle coherencia de identidad en todos los fotogramas.

Hoy es la princesa Anna que interpretó Audrey Hepburn en Roman Holiday, Joaquin Phoenix en Joker o la Mona Lisa, que se ha levantado con ganas de charlar, mañana podrá ser prácticamente cualquier cosa.

4 respuestas a «Aparecen en pantalla tres Audrey Hepburn casi perfectas: cantan, hablan y su expresión es tan real que ya nada volverá a ser lo mismo»

El Yeti, la IA, y la era de la realidad a la carta – LUDD

febrero 28, 2024 at 1:13 pm

[…] llegó un nuevo capítulo en esta escalada de contenidos generados por IA con el lanzamiento de Sora, el generador de vídeos de OpenAI. Entretanto, yo escribía en el grupo de WhatsApp tratando de […]

Cargando…

Responder
manel201957

marzo 3, 2024 at 4:53 pm

Eso es fantástico, pues ya no hará falta que los especialistas arriesguen sus vidas en las escenas peligrosas, o que el fallecido Félix pueda seguir haciendo programas, etc.

Cargando…

Responder
“Como Daft Punk pero más rock”: Adobe presenta la herramienta de IA que crea música a partir de mensajes de texto – LUDD

marzo 4, 2024 at 6:06 am

[…] suponemos Adobe responderá en su momento. Al igual que las herramientas “primas hermanas” tipo Sora, estaría bien saber de dónde sale la música que han usado para entrenar estos modelos de IA que […]

Cargando…

Responder
El fotograma muestra a Drake hablando inglés. De repente se repite la escena, pero en perfecto español. El doblaje con IA ha llegado a un nuevo nivel – LUDD

marzo 19, 2024 at 5:34 am

[…] unos días hablamos de EMO, otro programa diseñado para generar videos de retratos expresivos en condiciones de todo tipo. […]

Cargando…

Responder