Initialement spécialiste de réalité virtuelle et de reconstitution 3D, Vincent Nozick mène depuis trois ans des recherches sur la détection de falsification d'images. Notamment les "deepfakes", ces images générées par des algorithmes de deep learning en vogue depuis quelques années, les réseaux génératifs antagonistes (GAN). Ils permettent, sur des vidéos, de placer le visage d'une célébrité sur le corps de quelqu'un d'autre, de faire dire à un homme politique ce qu'il n'a jamais dit, de combiner les postures et les mouvements de deux personnes différentes, le tout avec un réalisme assez efficace. Un procédé au potentiel inquiétant, même si les parades commencent à apparaître.
Sciences et Avenir : En quoi les deepfakes posent un défi nouveau ?
Vincent Nozick : Il faut préciser que ce genre de manipulation vidéo existe sans deep learning. C'était le cas du projet Face2Face, qui permet de faire dire en temps réel à quelqu'un, un texte que l'on est soi-même en train de prononcer, y compris en lui prêtant ses mouvements de lèvres. C'était déjà très impressionnant.
Pour faire simple, les deepfakes sont des falsifications utilisant un auto-encodeur, il s'agit d'une technique de deep learning de la famille des GAN. Un auto-encodeur, c'est comme deux entonnoirs l'un en face de l'autre : le premier, l'encodeur, compresse la donnée et le second, le décodeur, restitue l'image originale. Dans le cas d'un deepfake, le réseau va prendre le visage d'une source A, et va apprendre à l'encoder. Mais au lieu de le décoder avec le decodeur de A, il va le décoder avec celui d'une cible B, ce qui en pratique va effectuer le transfert de visage avec l'expression faciale et l'illumination adéquate. C'est vraiment une très bonne idée.
Pour quels résultats ?
Au début, c'était très utilisé dans l'industrie du porno. Tromper les gens n'était pas le but. Maintenant, c'est plus délicat. Tout dépend de qui est la cible. La vidéo la plus connue est celle de Barack Obama [un projet de recherche de l'université de Washington à Seatlle, NDLR]. C'est très bien fait, cela pourrait faire illusion. Pour l'instant, nous n'avons eu affaire qu'à des démos réalisées pour tester la technologie ou pour rigoler. Mais de nouveaux acteurs, peu scrupuleux, peuvent se saisir de ces méthodes avec l'ambition de duper le public.
Est-ce que ça marche à tous les coups ?
Cela va dépendre des données dont on dispose et de la manière dont on va entraîner le réseau, des paramètres que l'on va spécifier au départ. Il faut définir la quantité de données que l'on veut garder en sortie de l'encodeur. Si on est très sélectif, on va obtenir une image très ressemblante mais avec du "bruit" visible. Avec plus de données, on aura un visage cible moins ressemblant à la source mais graphiquement parfait.
On trouve beaucoup de deepfake sur Internet, généralement des petites séquences amusantes. En fabriquer est-il à la portée de tout le monde ?
Cela prend du temps de collecter les données. Quand vous voulez truquer une vidéo de Barack Obama, ça va, on trouve facilement les images. Si c'est quelqu'un de moins connu, cela peut être plus laborieux.
Certains, y compris des chercheurs, s'alarment sur ces possibilités de manipulation, qui diffèrent de ce que l'on connaissait jusque-là. Peut-on déjà les détecter ?
Traditionnellement, les chercheurs qui travaillent sur la détection d'images falsifiées sont des spécialistes du traitement du signal. Le problème étant difficile, la communauté scientifique a eu tendance à traiter les manipulations, comme le copier-coller ou l'ajout d'images de synthèse, de façon indépendantes les unes des autres. Dès que plusieurs méthodes sont combinées, ces approches sont beaucoup moins efficaces. Et puis le deep learning est arrivé, permettant de traiter plusieurs types de falsifications à la fois, de traiter de la vidéo, ce qui était jusque-là assez compliqué.
Pourquoi ?
Concernant les images fixes, les formats de compression utilisés sont souvent les mêmes. C'est du JPEG la plupart du temps et les problèmes liés au JPEG sont connus, et très exploités dans la détection de falsifications. En vidéo, on trouve énormément de formats différents et l'image se compresse fortement. En pratique, cette forte compression ne gène pas nécessairement la personne qui regarde la vidéo car, même si une image n'est pas en elle-même très propre, la dynamique du flux vidéo fait que les altérations des images successives se compensent. Par contre, cette compression constitue pour nous une perte d'information significative pour la détection de falsifications.
Quelle est alors votre approche pour détecter les deepfakes ?
Nous avons mis au point un réseau de deep learning appelé MesoNet ["MesoNet : a compact facial video forgery detection network", présenté en 2018, NDLR], car il fonctionne au niveau mésoscopique. C'est-à-dire ni au niveau microscopique (le "bruit" de l'image) ni au niveau macroscopique (la sémantique de l'image, de la scène), mais entre les deux. Nous nous intéressons à des bouts d'image. Pour entraîner le réseau, nous avons constitué une base de données de vidéos dont on savait qu'elles étaient authentiques et de vidéos que l'on savait trafiquées. Au cours de nos tests, nous nous sommes rendus compte que les yeux et les contours de la bouche tenaient un rôle prépondérant dans la détection de deepfakes.
Ces résultats connus, est-ce que des contrefacteurs ne vont pas justement tenter de s'améliorer pour déjouer la détection ?
Beaucoup de confrères nous demande notre base de données pour travailler à leur tour sur des outils, car tout cela devient un problème de société. Mais nous attendons effectivement à ce que des gens s'adaptent pour corriger leurs manipulations. C'est normal. C'est toujours comme cela que ça se passe en cybersécurité.
Le vrai problème est ailleurs : on sait remplacer un visage par un autre, on sait aussi transférer une voix d'une personne à une autre (je suis en train de parler et Hillary Clinton dit la même chose !) Donc, la prochaine étape, à laquelle je m'attends, va consister à combiner du faux son et des fausses images.