top of page

YouTube va synchroniser les mouvements de lèvres grâce à l’IA

  • Photo du rédacteur: ARKTechNews
    ARKTechNews
  • 15 oct.
  • 2 min de lecture

YouTube envisage d’aller au-delà du doublage automatique : la plateforme travaille à faire correspondre visuellement les mouvements de lèvres des personnes dans les vidéos avec l’audio traduit. L’idée est que, lorsqu’une vidéo est doublée dans une autre langue, le visage du locuteur corresponde à ce que l’on entend, réduisant ainsi la dissonance visuelle qui survient souvent lors de doublages basiques. Ce système d’IA « synchronise visuellement les mouvements de la bouche avec la piste audio générée ».


Un ajout naturel aux doublages automatiques

La fonctionnalité s’inscrit comme une extension du système de auto-dubbing déjà déployé sur YouTube. Ce système permet aux créateurs de vidéos d’obtenir des versions audio traduites automatiquement dans plusieurs langues, sans avoir à réenregistrer leur voix. Mais jusqu’à présent, YouTube ne modifiait pas les images pour adapter les lèvres aux nouveaux dialogues. Avec cette technologie de lip-sync IA, les vidéos traduites devraient paraître plus naturelles et immersives.

YouTube va synchroniser les mouvements de lèvres grâce à l’IA

Défis techniques et limites initiales

Selon les premiers rapports, cette technologie fonctionne de manière optimale sur des vidéos en 1080p, mais pas encore sur des vidéos en 4K. Les ajustements doivent être très fins, caler les phonèmes (unités sonores) avec les visèmes (positions labiales) tout en préservant l’identité du visage, ses expressions, la lumière et sans artefacts visibles est un défi majeur. YouTube doit encore affiner ses modèles pour les angles de caméra variés, les visages avec expressions extrêmes ou les mouvements rapides.


Disponibilité progressive et contrôle des créateurs

La synchronisation labiale automatique est pour l’instant testée avec un groupe restreint de créateurs. YouTube prévoit de l’élargir progressivement selon les retours. Les créateurs pourraient disposer de contrôles pour activer ou désactiver la fonction sur certaines vidéos. Cette approche allie innovation et prudence, en laissant une marge de manœuvre quant à l’acceptation et la qualité perçue.


Enjeux éthiques et légitimité

Modifier visuellement le visage d’une personne pour qu’il prononce un audio synthétique soulève des questions éthiques. Le risque de deepfakes ou de modifications non souhaitées est réel. Pour y faire face, YouTube envisage d’indiquer que la vidéo a été modifiée par IA, ce qui renforcerait la transparence.



Sources :

bottom of page