À partir d’un échantillon de voix très court, un algorithme développé par Baidu est capable de produire de nouveaux énoncés qui reprennent toutes les caractéristiques d’une voix donnée.
Il suffit d’enregistrer 3,7 secondes de temps de parole et vous pourrez reproduire (ou déformer) tous les discours du monde : c’est la promesse assez inquiétante qu’est en train de réaliser Baidu, le numéro un chinois de l’internet, grâce à un nouvel algorithme d’intelligence artificielle.
Ce dernier est capable de cloner une voix, avec ses intonations, ses accents, ses particularités, et de produire à partir de là de nouvelles paroles, comme si elles étaient prononcées par la personne enregistrée à l’origine.
Des clones confondants
Cela s’appelle Deep Voice, et ne fait que trop penser aux «deep fakes», ces vidéos pornographiques truquées elles aussi à l’aide d’un algorithme d’intelligence artificielle, permettant d’incruster de façon réaliste le visage d’une personne –si possible célèbre– sur un corps étranger.
Il y a un an de cela, le système de «texte à parole» de Deep Voice avait encore besoin de 30 minutes de bande-son préalable avant de pouvoir obtenir un résultat satisfaisant.
Il est désormais possible d’obtenir un clone crédible en un temps record, bien que de plus larges échantillons permettent de créer des faux de meilleure qualité.
Avec seulement quelques secondes, l’enregistrement produit est reconnaissable (c’est-à-dire suffisamment trompeur pour être crédible), mais sonne comme une captation d’assez mauvaise qualité, un peu hachée ou grésillante. Entraîné sur cent échantillons, l’algorithme peut en revanche produire des discours confondants. Il est possible pour le système de transformer une voix de femme en voix d’homme, ou un accent britannique en accent américain (divers échantillons sont disponibles ici).
Dans un communiqué, Baidu écrivait espérer que le clonage de voix puisse « avoir des applications significatives dans la personnalisation d’interfaces humain-machine ».
Un autre type «d’applications significatives» permis par ce type d’avancée technologique pourrait également concerner la falsification de documents audio ou la création de toute pièce de fausses déclarations. Dans un contexte de prolifération de fake news, des clones vocaux pourront s’ajouter à cœur joie à la cacophonie ambiante : une nouvelle mine d’or pour les faussaires.
Source :
https://baike.baidu.com/item/Deep%20Voice
A reblogué ceci sur Die Erste Eslarner Zeitung – Aus und über Eslarn, sowie die bayerisch-tschechische Region!.
Après Deep fake vidéo, maintenant deep voiceC’est effectivement assez inquiétant. J’avais consacré un article aux conséquences du deep fake https://banblog.net/2018/02/04/deep-fake/
Je me rends sur votre lien