Personne n'aime parler à une IA

Personne n’aime parler à une IA

A mesure que l’IA progresse, la frontière entre les robots et les humains se resserre. Les IA nous défient dans un nombre incalculable de domaines, elles nous surpassent sur plusieurs tâches que l’on pensait réservées à l’être humain. Et aujourd’hui… elles veulent que l’on discute. A travers des assistants vocaux… Comme si parler à un robot était devenu normal 🙄

Personne n'aime parler à une IA

Les dernières années ont vu une explosion des IA dites conversationnelles. Le problème c’est que les systèmes actuels sont encore instables et ne donnent pas vraiment envie d’échanger.

Plusieurs défis auxquels les concepteurs doivent faire face


Les agents conversationnels n’ont pas une bonne réputation. Sens de l’humour moyen, problème de compréhension, lenteur d’exécution. La liste des reproches est longue. Les concepteurs ont pas mal de travail pour les années à venir et les défis sont nombreux.

Les gens veulent une réponse en temps réel


Imaginez-vous en train de discuter avec un ami qui doit réfléchir à chaque fois que vous lui poser une question simple comme : ‘’ça va ?’’. Si cette situation se produit vous devriez changer d’amis 🙄. Je caricature mais c’est ce qui se passe parfois aujourd’hui lorsque vous posez une question à un des assistants vocaux qui vous entourent.

Il se trouve qu’instantanéité et big data ne font pas bon ménage. Bien souvent lorsqu’il y a un processing de données, le système a besoin de temps. Et c’est quelque chose que l’on ressent avec les assistants vocaux d’aujourd’hui. Même si ceux de Google ou Amazon sont assez bons sur ce point, l’exigence d’instantanéité peut parfois avoir raison de la qualité des réponses.


Le problème de la voix


On n’en parle pas assez de ce problème ! Les voix de synthèses sont vraiment horribles, je n’y arrive vraiment pas ! Même si une grosse amélioration a été observée ces dernières années, nous ne sommes pas encore arrivés à un résultat qui pourrait nous satisfaire…

Sur ce point, la libération viendra certainement d’une start-up canadienne dont vous avez peut-être entendu parler. La start-up Lyrebird (qui appartient maintenant à Descript) a entrainé un modèle de machine learning qui permet d’imiter la voix d’une personne. Le plus impressionnant c’est que quelques secondes d’enregistrement suffisent pour l’entraînement.

J’avoue que leur système me fait plus peur qu’autre chose, en tout cas il nous débarrassera du problème des voix de synthèse. Le danger est qu’il soit repris par des personnes mal intentionnées pour rependre des rumeurs et des fausses informations. C’est le danger de la technologie, elle permet de faire des choses intéressantes mais soulève des questions d’éthiques. C’est pour cela que nous devons plus que jamais cultiver un esprit critique, il n’est plus possible en 2020 de croire ce que l’on voit ou ce que l’on écoute sans le remettre en question.


L’IA doit enregistrer le contexte de la conversation



Les IA d’aujourd’hui oublient vite. Il y a quelques années les assistants vocaux étaient programmés pour traiter les demandes les unes après les autres sans les mettre dans un contexte particulier. Si vous souhaitiez poser une nouvelle question à votre assistant, il avait déjà oublié la première, ce qui limite considérablement les applications.

Heureusement les systèmes disponibles actuellement sont un peu plus efficaces. Ils sont dotés d’une mémoire qui permet de tenir une conversation de plusieurs messages. Il s’agit souvent de mémoire à courts termes mais c’est suffisant dans beaucoup de cas. Peut-être que pour des systèmes comme Google Home ou Siri, des mémoires à (très ?) longs termes sont incluses…

Tous ces problèmes font que les IA conversationnelles sont ennuyeuses, ne convertissent pas de clients pour les entreprises, ne donnent pas envie de discuter, pire elles peuvent parfois énerver la personne. Personnellement, j’ai désactivé l’IA de mon téléphone, je n’arrive pas encore à discuter avec un robot, ce n’est pas quelque chose que j’envisage. Peut-être quand des solutions plus intéressantes seront proposées.

Et pourtant je suis convaincu que cette décennie sera celles des IA conversationnelles. C’est l’application de l’IA qui me semble la plus évidente. Les interactions humaines se font par la voix de façon plus naturelle. C’est pour cela que ces systèmes continueront à se démocratiser.

Le langage est un art difficile à maîtriser


Les challenges que j’ai listés plus haut ne sont que des obstacles qui seront bientôt surmontés. Mais il y a un composante essentielle à prendre en compte : parler est un art ! Et comme tout les arts, il est difficile à maîtriser.

L’utilisation de questions rhétoriques, les blagues, l’ironie tout ça les IA ne connaissent pas. On a tous cet ami qui a du mal à comprendre les blagues. Racontez-lui une histoire inventé sur un personnage fictif et il vous demandera ‘’c’est qui ça ?’’… Ne rigolez pas, ça n’est pas drôle, c’est un fléau haha !

Eh bien avec les IA c’est la même chose. Les modèles conçus aujourd’hui se contentent d’étudier les phrases ou les paragraphes au sens propre. Les IA prennent tous ce que vous leur dites au premier degré. Et si une blague est faite c’est souvent parce qu’elle a été programmée par le concepteur.

Lorsque l’on parle, l’émotion est un aspect essentiel. La prosodie de la voix, l’intonation, toutes ces choses qui ne font pas partie du texte mais qui donnent vie à votre propos, lui donnant plus de sens. Les IA d’aujourd’hui peuvent détecter les émotions d’une personne de façon plus ou moins précise, mais concevoir une IA qui pourrait adapter sa voix en fonction de l’émotion qu’elle veut simuler s’apparente encore à de la science-fiction.

La parole est en fait plus qu’une succession de mots. C’est ce qui façonne la pensée, c’est ce qui permet de convaincre, c’est ce qui vous met en valeur et rend vos propos intéressants. Si vous voulez parler avec une IA, rangez vos figure de styles.

Le langage est un art qui visiblement ne peut émerger d’une succession de conditions, intégrées dans un assemblage de lignes de codes. C’est quelque chose de supérieur que la machine aura du mal à maîtriser.