DeepMind, l'intelligence artificielle de Google peut maintenant lire sur les lèvres
Google n’est pas qu’un simple moteur de recherche ou un éditeur de système d’exploitation (Android), la firme de Mountain View développe sa propre intelligence artificielle depuis le rachat de la société britannique DeepMind et celle-ci est maintenant capable de lire sur les lèvres grâce à des milliers d’heures de vidéos analysées.
L’intelligence artificielle sait mieux lire sur les lèvres que l’homme
Cette intelligence artificielle développée par DeepMind, la filiale de Google, est capable de traduire automatiquement un texte, de simuler une voix presque humaine et maintenant de lire sur les lèvres et même mieux qu’un spécialiste.
Le projet baptisé LipNet analyse les vidéos et convertit les mouvements des lèvres en texte avec un taux d’exactitude de 46,9%. À titre de comparaison, un professionnel de la lecture sur les lèvres arrive en général à un taux de 23,9% soit 2 fois moins que cette IA. En général, les principales erreurs faites par le système LipNet sont par exemple l’oubli du S à la fin d’un mot.
Pour réaliser cet exploit, LipNet a analysé plus de 5000 heures de vidéos de la chaîne BBC. D’après l’estimation des concepteurs, cela équivaut à 118 000 phrases prononcées et 17 500 mots uniques. Il faut savoir que cette intelligence artificielle n’essaie pas de détecter chacun des mots un par un, mais plutôt des groupes de mots et des phrases complètes, elle s’appuie sur un système de réseaux neuronaux qui ressemble à celui des animaux (cortex visuel), c’est-à-dire un système qui ressemble au cortex visuel des animaux.
On peut imaginer que Google utilise LipNet pour créer automatiquement des sous-titres de vidéo lorsque le son est de trop mauvaise qualité, trop de bruit environnant ou volume trop faible par exemple. On pourrait aussi voir ça sur nos futurs smartphones pour améliorer la compréhension de nos assistants personnels qui pourraient grâce au micro et à la caméra frontale écouter et lire sur nos lèvres.