DeepMind, l'intelligence artificielle de Google peut maintenant lire sur les lèvres

25 novembre 2016 à 15h29 dans High-tech

Google n’est pas qu’un simple moteur de recherche ou un éditeur de système d’exploitation (Android), la firme de Mountain View développe sa propre intelligence artificielle depuis le rachat de la société britannique DeepMind et celle-ci est maintenant capable de lire sur les lèvres grâce à des milliers d’heures de vidéos analysées.

DeepMind, l

L’intelligence artificielle sait mieux lire sur les lèvres que l’homme

Cette intelligence artificielle développée par DeepMind, la filiale de Google, est capable de traduire automatiquement un texte, de simuler une voix presque humaine et maintenant de lire sur les lèvres et même mieux qu’un spécialiste.

Le projet baptisé LipNet analyse les vidéos et convertit les mouvements des lèvres en texte avec un taux d’exactitude de 46,9%. À titre de comparaison, un professionnel de la lecture sur les lèvres arrive en général à un taux de 23,9% soit 2 fois moins que cette IA. En général, les principales erreurs faites par le système LipNet sont par exemple l’oubli du S à la fin d’un mot.

Pour réaliser cet exploit, LipNet a analysé plus de 5000 heures de vidéos de la chaîne BBC. D’après l’estimation des concepteurs, cela équivaut à 118 000 phrases prononcées et 17 500 mots uniques. Il faut savoir que cette intelligence artificielle n’essaie pas de détecter chacun des mots un par un, mais plutôt des groupes de mots et des phrases complètes, elle s’appuie sur un système de réseaux neuronaux qui ressemble à celui des animaux (cortex visuel), c’est-à-dire un système qui ressemble au cortex visuel des animaux.

On peut imaginer que Google utilise LipNet pour créer automatiquement des sous-titres de vidéo lorsque le son est de trop mauvaise qualité, trop de bruit environnant ou volume trop faible par exemple. On pourrait aussi voir ça sur nos futurs smartphones pour améliorer la compréhension de nos assistants personnels qui pourraient grâce au micro et à la caméra frontale écouter et lire sur nos lèvres.

Tombé amoureux de l’informatique étant petit avec un Amstrad 6128, je n’ai jamais décroché. Depuis, je me suis diversifié en m’intéressant aux nouvelles technologies et plus particulièrement celle de notre quotidien.

Articles de Mickaël
Source(s) : CNET
count
Commentaires (4)
Wahou impressionnant mieux que l'humain et on ne va pas l'arrêter... ça serait trop top pour Youtube car les sous-titre bof bof
photo de profil de Loic Par Loic, il y a 8 ans Répondre
2001..... L'EAU 10 AIDE LAISSE PASSE ?
photo de profil de FuckGramNazi Par FuckGramNazi, il y a 8 ans (en réponse à Loic) Répondre
On peut aussi l'utiliser de la mauvaise façon :/ Imagine le gouvernement avec des caméras partout integrant cesysteme, qui enregistrerait tout ce qu'on dit ! Tu dis "Bite" dans la rue et t'as la brigade des moeurs au culs le jour suivant ! PARANOIAAAAAAAAAA !
photo de profil de Pasdenonyme Par Pasdenonyme, il y a 8 ans Répondre
Ouais personnelement quand je lis des article comme sa je pense desuite a Matrix ou a watchdogs plus de liberté et un controle de la population soit par un groupe d'humains réduit soit par les machines.
photo de profil de gaial Par gaial, il y a 8 ans Répondre
Laisser un commentaire

Vous répondez à . Annuler