Des chercheurs ont dvelopp une technologie qui permet de modifier une allocution filme simplement en ditant le texte de la retranscription verbale. Les adeptes de fake news vont adorer.

Modifier de manire automatique une interview vido n’a jamais t aussi simple. Des chercheurs des universits de Princeton et Stanford, ainsi que de l’institut Max Planck, viennent de publier une technique qui permet de modifier le contenu d’une allocution vido simplement en modifiant le texte de la retranscription verbale.

Le systme est alors capable, partir du nouveau texte, de crer l’entretien vido correspondant, sans coupures ni -coups, comme si elle tait d’origine. On peut ainsi ajouter et supprimer des mots, ou se contenter de les rarranger. Le rsultat est tellement bluffant que la plupart des personnes qui visionnent ces vidos modifies pensent qu’elles sont vridiques. Des exemples sont montrs dans une vido de prsentation sur YouTube.



D’autres chercheurs explorent galement ce domaine de la gnration automatique de vidos. En 2017, un groupe de l’universit de Washington avait notamment russi crer une vido artificielle de Barack Obama partir d’une piste audio existante.

Comparativement, la technique que viennent de prsenter les chercheurs de Princeton et de Stanford est suprieure, car elle vite d'avoir raliser un enregistrement audio : il suffit de modifier un texte.

Comment ce travail de modification est-il ralis ? Le systme cr par les chercheurs va d’abord analyser la vido et la retranscription verbale pour reconnatre non seulement les phonmes, mais aussi les vismes . C’est--dire les expressions faciales lmentaires associes aux phonmes. Le systme va ensuite analyser les modifications apportes au texte et identifier les vismes qu’il faut utiliser pour modifier la vido.


Une modlisation 3D, puis un rseau de neurones

Les nouvelles squences sont alors cres en deux tapes. Dans un premier temps, le logiciel va gnrer une modlisation 3D des mouvements de la bouche et de la mchoire, tout en respectant les conditions gnrales de la vido : exposition, clairage, position de la tte, etc.

Dans un second temps, un rseau de neurones pralablement entran va transformer ces modlisations 3D en squences vidos ralistes. Pour la partie audio, les chercheurs utilisent diffrentes mthodes : soit ils renregistrent le nouveau texte avec la personne d’origine, soit ils gnrent artificiellement les nouvelles parties audio avec un logiciel tel qu’Adobe VoCo.




Evidemment, les chercheurs ne souhaitent pas que leur technologie soit utilise pour manipuler de faon malveillante des discours ou des interviews. Ils le voient comme un outil supplmentaire dans les processus de production audio-vido, par exemple pour corriger des erreurs d’enregistrement.

Le logiciel pourrait galement servir gnrer des squences vidos ralistes pour un assistant virtuel.

Dans tous les cas, l’utilisation de cette technologie devrait se faire de manire ouverte et transparente, et avec l’accord de la personne filme. Pour viter les crations frauduleuses et malveillantes, les chercheurs estiment qu’il faudrait dvelopper davantage de techniques de vrification, comme l’analyse forensique ou le watermarking.