Accueil > Pour en savoir plus > Sciences formelles > Intelligence artificielle > "Une nouvelle forme d’Intelligence Artificielle (IA) peut se concentrer sur (…)

"Une nouvelle forme d’Intelligence Artificielle (IA) peut se concentrer sur une seule voix dans une foule : le programme mis au point peut identifier la source émettrice et supprimer tout le bruit de fond en utilisant à la fois des repères visuels et sonores" par Maria Temming

Traduction et compléments de Jacques Hallard

mercredi 5 septembre 2018, par Temming Maria


ISIAS Intelligence artificielle
Une nouvelle forme d’Intelligence Artificielle (IA) peut se concentrer sur une seule voix dans une foule : le programme mis au point peut identifier la source émettrice et supprimer tout le bruit de fond en utilisant à la fois des repères visuels et sonores
L’article d’origine de Maria Temming a été publié le 11 juin 2018 par Science News Artificial Intelligence, Technology sous le titre « A new AI can focus on one voice in a crowd  » ; il est aussi accessible sur ce site : https://www.sciencenews.org/article/new-ai-can-focus-one-voice-crowd?utm_source=email&utm_medium=email&utm_campaign=latest-newsletter-v2

people at a cocktail party

Écouter avec une nouvelle intelligence artificielle (en abrégé IA) : elle filtre les conversations en arrière-plan et les autres bruits dans les vidéos pour isoler ce que dit une seule personne visible à l’écran. Monkey Business Images/Shutterstock.

[Selon Wikipédia, « L’intelligence artificielle (IA) est « l’ensemble de théories et de techniques mises en œuvre en vue de réaliser des machines capables de simuler l’intelligence »1. Elle correspond donc à un ensemble de concepts et de technologies plus qu’à une discipline autonome constituée. D’autres, remarquant la définition peu précise de l’IA, notamment la CNIL, la définissent comme « le grand mythe de notre temps »2. Souvent classée dans le groupe des sciences cognitives, elle fait appel à la neurobiologie computationnelle (particulièrement aux réseaux neuronaux), à la logique mathématique (sous-discipline des mathématiques et de la philosophie) et à l’informatique. Elle recherche des méthodes de résolution de problèmes à forte complexité logique ou algorithmique. Par extension elle désigne, dans le langage courant, les dispositifs imitant ou remplaçant l’homme dans certaines mises en œuvre de ses fonctions cognitives3. Ses finalités et son développement suscitent, depuis toujours, de nombreuses interprétations, fantasmes ou inquiétudes s’exprimant tant dans les récits ou films de science-fiction que dans les essais philosophiques… » Lire l’article en entier sur ce site : https://fr.wikipedia.org/wiki/Intelligence_artificielle ].

Tout comme quelqu’un qui écoute une conversation lors d’une réunion ou d’une fête bondée de monde, une nouvelle forme d’intelligence artificielle IA peut atténuer le bruit de fond dans lesvidéos pour entendre ce que dit une personne qui est représentée à l’écran.

Les êtres humains sont naturellement capables de se concentrer sur des voix spécifiques au milieu d’un vacarme - un phénomène connu sous le nom de ‘cocktail party’ (SN Online : 29/04/14). [Voir How brains filter the signal from the noise by Bethany Brookshire 6:00pm, April 29, 2014].

[D’après Wikipédia, « En psychoacoustique on appelle effet cocktail party la capacité à diriger son attention pour suivre un flux verbal (discours ou conversation) dans une ambiance bruyante, par exemple lors d’une réception ou d’un cocktail, tout en restant attentif aux autres signaux sonores. Même si notre attention est fixée sur ce un flux dont les principaux caractères, le ton, la cohérence syntaxique, la direction d’origine, sont stables, nous restons dans une certaine mesure sensibles aux sons extérieurs. Par exemple, si notre nom est prononcé par une tierce personne dans la salle, notre attention sera captée et désengagée de la conversation ou du discours que nous étions en train de suivre. On peut voir l’effet cocktail party comme une application auditive de la ségrégation figure-fond dans le domaine de la perception visuelle, la figure étant ici le son sur lequel on porte notre attention et le fond étant le fond sonore formé par les autres sons (les bruits du cocktail). Cependant, on peut suivre plusieurs discours à la fois, comme dans l’interprétation simultanée. Une personne incapable de focaliser son attention auditive pour suivre un flux verbal dans une ambiance bruyante souffre du syndrome du banquet. Colin Cherry (en) a introduit l’expression en 1953 dans son article « Quelques expériences sur la reconnaissance de la parole avec une ou deux oreilles1 »… » Article complet à lire sur e site : https://fr.wikipedia.org/wiki/Effet_cocktail_party ].

Mais jusqu’à maintenant, les programmes conçus pour écouter des haut-parleurs spécifiques dans des pistes audio bruyantes ont travaillé dur pour imiter l’inhibition mentale sélective des êtres humains. La nouvelle IA est conçue pour utiliser des signaux audio et visuels, tels que des mouvements de la bouche, pour séparer les sons produits par différents haut-parleurs dans les vidéos.

Des chercheurs de Google ont testé leur intelligence artificielle IA sur des clips vidéo ressemblant à des cocktails, dans lesquels deux ou trois personnes discutaient entre elles, avec différents niveaux de bruit de fond et dans lesquels les humains sont naturellement capables de se concentrer sur des voix spécifiques au milieu du vacarme - un phénomène connu sous le nom de ‘cocktail party’ (SN Online : 29/04/14).

Ces chercheurs de Google ont testé leur intelligence artificielle sur des clips vidéo ressemblant à des cocktails,. En regardant et en écoutant les vidéos, la nouvelle IA pouvait distinguer les sons provenant de chaque enceinte de façon beaucoup plus précise qu’un algorithme similaire qui écoutait simplement l’audio.

Cette IA, présentée en août 2018 à la réunion 2018 SIGGRAPH à Vancouver au Canada, pourrait être utilisée pour légender des vidéos plus précisément que les systèmes de transcription actuels. Et une future version plus rapide du programme qui peut filtrer le bruit de fond des flux vidéo en direct pourrait aider les gens à s’écouter plus clairement lors des téléconférences, explique Shmuel Peleg, informaticien à l’Université hébraïque de Jérusalem, en Israël..

Qui plus est, ce type d’IA pourrait aider les assistants virtuels à entendre les commandes vocales plus clairement, ajoute Jen-Cheng Hou, ingénieur au ‘Research Center for Information Technology Innovation’ (Centre de recherche pour l’innovation en technologie de l’information), auprès de l’Academia Sinica à Taiwan, République de Chine.

Citations

A. Ephrat et al. Looking to listen at the cocktail party : A speaker-independent audio-visual model for speech separation. International Conference and Exhibition on Computer Graphics and Interactive Techniques. Vancouver, Canada, August 15, 2018.

Further Reading - Autres lectures

A. Grant. 3-D printed device cracks cocktail party problem. Science News. Vol. 188, September 19, 2015, p. 16.

B. Brookshire. How brains filter the signal from the noise. Science News Online, April 29, 2014.

L. Sanders. Attention tunes the mind’s ear. Science News Online, April 18, 2012.

A. Witze. How to hear above the cocktail party din. Science News Online, January 3, 2011.

Résultat de recherche d’images pour ’science news’

Retour au début de l’article traduit

 Traduction, compléments entre […] et intégration de liens hypertextes par Jacques HALLARD, Ingénieur CNAM, consultant indépendant – 04/09/
2018 - Site ISIAS = Introduire les Sciences et les Intégrer dans des Alternatives Sociétales

http://www.isias.lautre.net/

Adresse : 585 Chemin du Malpas 13940 Mollégès France

Courriel : jacques.hallard921@orange.fr

Fichier : ISIAS Intelligence artificielle A new AI can focus on one voice in a crowd French version.2

Mis en ligne par Pascal Paquin de Yonne Lautre, un site d’information, associatif et solidaire(Vie du site & Liens), un site inter-associatif, coopératif, gratuit, sans publicité, indépendant de tout parti

http://yonnelautre.fr/local/cache-vignettes/L160xH109/arton1769-a3646.jpg?1510324931

---