Icono del sitio ESALAB – Expert Systems and Applications Laboratory

Deepfakes: Capítulo 1

DeepFakesCapitulo1

Ejemplo DeepFake Unamuno

Recientemente se ha hecho viral el siguiente spot publicitario en el que participa nada más y nada menos que la artista Lola Flores:

Spot publicitario de una conocida cerveza

Además del video publicitario en sí, la empresa encargada de la campaña ha publicado el making off del vídeo en el que muestran algunas de las técnicas de inteligencia artificial utilizadas para su creación, en este caso, técnicas relacionadas con la creación de los denominados Deepfakes.

Proceso de creación del spot utilizando Deepfake

¿Qué es un Deepfake?

El término Deepfake proviene de las palabras fake (falsificación) y deep (profundo), haciendo referencia esta última a las técnicas de Deep Learning (Aprendizaje Profundo) que se emplean para la creación de estas falsificaciones (vídeos, audios, etc.).

Bueno, ¿y cómo se pueden realizar?

La motivación de esta entrada de carácter divulgativo del blog es, precisamente, este punto. Y esto, ¿cómo es posible? Aquí es donde entran en juego un tipo de arquitecturas de redes neuronales conocidas como las GANs (Generative Adversarial Networks), además de muchas otras técnicas. Desde que en 2014 Ian Goodfellow y sus colegas lo presentaran en la conferencia NIPS, este tipo de técnicas han evolucionado y revolucionado el campo del Machine Learning y, en concreto, el área de la creación de contenido audiovisual, de forma increíble en los últimos 7 años. Gracias a éstas técnicas, los Deepfakes han emergido junto a otras muchas aplicaciones. Os dejamos un video de la evolución por si os interesa:

Evolución de las GANs

Si nos detuviéramos y analizáramos de forma “ingenieril” el proceso, podríamos abordarlo de muchas formas. En el caso concreto de este spot, los propios autores reconocen que ha sido un trabajo bastante “artesanal” en el que se han necesitado muchas horas de trabajo de edición y composición para poder llegar a obtener el resultado final. Podéis encontrar más información en esta entrada de Xataka o en el programa de RTVE.

Si nos fijamos en el video del making off, nos muestran una forma de abordar el problema, en la que generan los frames con el rostro de LoLa Flores para cada uno de los frames de un video objetivo con herramientas como FaceSwap y DeepFaceLab (además de utilizar otro software de edición para conseguir un acabado final muy realista).

Pero no solo existe esta forma de realizar deepfakes, en otros casos bastaría simplemente con “mover los labios” del rostro de un video objetivo en base a uno de origen o incluso en base al texto o audio que se proporcione como entrada.

Sí, habéis leído bien.

Trabajos recientes como el de Prajwal et al. Wav2Lip muestran un claro ejemplo de esto:

Wav2Lip

Pero, ¿y la voz?

En el caso del spot, mencionan que ha sido necesario la grabación de la voz de Rosario y Lolita Flores para el proceso. Pero efectivamente, la voz también puede ser generada si se dispone de la cantidad suficiente de audios de una persona (aunque cada vez son necesarios menos datos para ello).

En el siguiente video se muestra el opening de un famoso curso titulado “Intro to Deep Learning” del MIT del pasado año 2020, en el que la persona que da la bienvenida a los alumnos es el mismísimo Barack Obama:

Deepfake MIT Intro to Deep Learning

Existen muchos trabajos en la literatura científica como el de Baidu en los que muestran como clonar la voz en base a pocos fragmentos de audio. Incluso, ya existen plataformas que permiten automatizar este proceso como RESEMBLE.AI (con mejor o peor resultado).

Pero, ¿sería posible realizar estos Deepfakes de forma rápida o incluso realizarlos en tiempo real?

La respuesta es un sí rotundo y cada vez de forma más sencilla. Trabajos recientes como el de NVIDIA, que se presenta a continuación, realizan algo parecido, pero en este caso para ahorrar ancho de banda en una videollamada. Se basan en la idea de que, ya que es una videollamada en la que solo se muestra la cara, ¿Por qué no simplemente enviar los puntos faciales detectados y tener una red al otro lado que nos «mueva la cara» como una marioneta? Pensad la diferencia entre enviar un stream de video a enviar 68 puntos faciales, cambia mucho la cosa.

REFLEXIÓN: ES NECESARIO REFORZAR EL PENSAMIENTO CRÍTICO

A la vista de lo presentado anteriormente, buena parte de vosotros estaréis preocupados pensando en la gran parte negativa que pueden tener estas técnicas, y no es para menos.

Sin embargo, como siempre ocurre con las nuevas tecnologías, pueden utilizarse de forma constructiva o destructiva (en mayor o menor medida cada una ellas).

Es cierto que esta tecnología se está utilizando para la creación de bulos y vídeos que atentan al honor de las personas (incluyendo contenido para adultos y un largo etcétera del que no haremos publicidad en este blog).

Del mismo modo, se está utilizando en la creación de contenido audiovisual de forma increíblemente rápida permitiendo ahorrar mucho trabajo en la edición. Pensad en una clase grabada por un profesor, que, a golpe de clic, pudiera ser doblada al inglés y, además, ahora por fin el doblaje coincidirá con el movimiento de los labios de la persona que habla. Algunos ejemplos los podéis ver ya disponibles en servicios como Descript, o Synthesia:

Edición de video con Descript
Synthesia Translation
Video de felicitación de la navidad de Papá Noel realizado con un DeepFake

La mayoría de los papers se encuentran accesibles de forma pública y muchos incluyen el código fuente, pudiendo ser utilizados por cualquier persona con unos mínimos conocimientos técnicos. A continuación, un ejemplo utilizando el trabajo de First Order Motion Model for Image Animation para animar cualquier imagen con resultados bastante buenos:

https://esalab.es/wp-content/uploads/2021/01/avatarify.mp4
Vídeo creado con la herramienta Avatarify

Por tanto, a la vista de estos avances, es necesario hoy más que nunca el fortalecer nuestro pensamiento crítico y contrastar la información con fuentes fiables, sabiendo separar el humo de la información veraz entre toda la oleada informativa que tenemos a día de hoy.

En próximas entradas hablaremos de las técnicas mencionadas anteriormente (ya que todas darían para hablar largo y tendido) y cómo algunas de estas las empleamos en nuestros proyectos de investigación.

¡Hasta la próxima y buen fin de semana!