Deepfake : Comment fonctionne réellement cette technologie ?

Depuis son émergence en 2017, le phénomène des deepfakes s’est développé rapidement autant en matière de sophistication technologique que d’impact sociétal.

Le deepfake, ou encore hypertrucage en français, est principalement utilisé pour changer et modifier les visages sur une vidéo.

Le terme « deepfake » provient de la contraction de « deep learning » (apprentissage profond) et de « fake » (faux). Le deep learning peut tout aussi bien reconnaître lui-même des visages ou reproduire une voix. Grâce à l’utilisation du deep learning, les deep fakes deviennent de plus en plus efficaces. Décryptages techniques :

Étape d’identification : L’utilisation d’un “auto-encodeur”

Les deepfakes sont des falsifications utilisant un auto-encodeur qui est une technique de deep learning. Pour comprendre la technique permettant la synthétisation des données dans le cadre du deep learning, il est important de définir ce qu’est un auto-encodeur.

Il s’agit de deux réseaux de neurones partenaires entraînés de façon indépendante c’est-à-dire sans être supervisés par un expert humain.

  • Premier réseau : L’encodeur

Le rôle du premier réseau, nommé « encodeur », est d’observer et de décrire l’image. Par exemple, l’encodeur devra analyser le visage d’une personne pour collecter différentes informations sur cette dernière : Est-ce que cette personne sourit ? Est-elle maquillée ? Porte-elle des lunettes ?

  • Second réseau : Le décodeur

Le second réseau, le « décodeur », reconstitue l’image en restituant parfaitement ce visage à ces mêmes indications (la personne sourit, est maquillée ou encore porte des lunettes).

Schéma d’un auto-encodeur : Source de l’image

Le résultat est alors attribué aux deux réseaux de neurones tant à l’encodeur qu’au décodeur. Cette technique ne semble pas très utile en soi mais elle apparaît d’une grande importance pour reproduire fidèlement les images lors de la création d’une vidéo deepfake.

Étape de production : Les “Generaltive Adversarial Network” (GAN)

Avec les GAN, type particulier d’auto-encodeur, apparus en 2014 :

L’intelligence artificielle ne se contente plus seulement d’apprendre mais elle est également capable de générer une vidéo du même type, selon Data Analytics Posts.

La méthode des GAN, ou réseaux antagonistes génératifs en français, est une technique où les deux réseaux sont, cette fois-ci, en compétition l’un envers l’autre. Ils sont en position adverse.

Schéma d’un GAN : Source de l’image

L’encodeur génère alors une vidéo et le décodeur corrige en comparant le résultat par rapport à la vidéo originale. Cette technique permet une auto-évaluation des images falsifiées pour générer une vidéo fidèle à la réalité.

Pour une vidéo deepfake, le premier réseau va assimiler le visage d’une source A et va apprendre à l’encoder. Au lieu de décoder l’image avec le décodeur initial de la source A, il va la décoder avec celui d’une cible B ce qui va permettre de transmettre le visage avec l’expression faciale et la lumière adéquate entre ces deux sujets.

Par cette méthode, l’image d’une personne-cible peut alors être reproduite fidèlement sur un modèle ou un acteur !

A propos de Marie ACKERMANN

Citoyenne du numérique, j'ai choisi de m'orienter pour mon Master 2 vers le Droit de l'économie numérique. Le monde du numérique est une grande source de curiosité d'autant plus que le droit actuel répond difficilement à ses évolutions constantes. Il m'est donc indispensable d'analyser l'actualité dans ce domaine pour en relever les différents enjeux.

Vous aimerez aussi...

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.