Panorama de l'apprentissage non supervisé

Panorama de l’apprentissage non supervisé

Depuis plusieurs dizaines d’années, une question tient éveillés philosophes et scientifiques : pourra-t-on concevoir un jour une intelligence artificielle de niveau humain ? Aujourd’hui, nous sommes encore loin d’y arriver. Et cela ne sera pas possible en utilisant les méthodes classiques d’apprentissage supervisé. Selon Yann LeCun (un des plus grands chercheurs en intelligence artificielle, considéré comme un des inventeurs de l’apprentissage profond, lauréat du prix Turing 2019, head of AI chez Facebook, et j’en passe !), « Nous n’obtiendrons pas une intelligence aussi générale que celle des humains avec la supervision ou l’apprentissage multi-tâche. Il va nous falloir autre chose. » Cette autre chose, c’est sans doute l’apprentissage non supervisé.

Panorama de l'apprentissage non supervisé

Focus sur l’apprentissage non-supervisé

Qu’est-ce que l’apprentissage non supervisé ? C’est de l’apprentissage sans superviseur, tout simplement… 😊 L’apprentissage non supervisé consiste à apprendre à un algorithme d’intelligence artificielle des informations qui ne sont ni étiquetées (on ne précisera pas que telle image est un chat ou je ne sais quoi d’autre), ni classées pour permettre à cette algorithme de réagir à ces informations sans intervention humaine, c’est-à-dire sans superviseur (d’où le nom, vous l’aurez compris). De plus, l’algorithme traite les données sans aucun entrainement préalable, il « s’entraine lui-même » avec les données qu’il reçoit. 

Néanmoins, ce n’est pas parce que l’on parle d’apprentissage non supervisé que l’on doit omettre la notion de catégories pour les algorithmes de classifications. Un algorithme d’apprentissage non supervisé utilise des catégories associées aux données qu’on lui soumet, mais il doit les faire émerger lui-même, afin, par exemple, de reconnaître qu’un chat est un chat, ou qu’un article de la revue IA est un article de la revue IA. En apprentissage supervisé on fournit des milliers d’images de chiens à l’algorithme avec le label ‘’chien’’. De cette manière, si on lui fournit une autre image quelconque il pourra déterminer si elle représente un chat ou pas. En apprentissage non supervisé, aucun label n’est fourni, en traitant des milliers d’images, l’algorithme doit être en mesurer de créer de lui-même une catégorie ‘’chien’’, même s’il ne sait pas ce qu’est cela représente, il remarquera les similarité entre les images. L’algorithme a seulement regroupé toutes les images de chiens ensemble car elles avaient toutes un certain nombre de points communs : taille, quatre pattes, forme du visage, forme du museau etc… (On remarque facilement qu’à l’intérieur d’une catégorie peuvent se trouver plusieurs sous-catégories; par exemple dans la catégorie « chien » peuvent se trouver différentes races de chiens).

Comment ça marche ?

Le problème d’apprentissage non supervisé le plus fréquent est la segmentation (en anglais le clustering), c’est l’étape où l’on essaie de séparer les données en catégories. C’est la pierre angulaire de l’apprentissage non supervisé. C’est à la fois sa plus grande contrainte et sa plus grande force. C’est ce qui fait que l’on fait le parallèle entre l’apprentissage non supervisé et la façon humaine de raisonner puisque l’intelligence artificielle est alors autonome. Il n’y a pas besoin d’intervention humaine préalable pour créer les catégories, ce qui est exactement le cas pour les humains ! On a appris nous-mêmes à distinguer les objets que l’on voit, à savoir que tel animal est un chat et tel autre est un chien. 

La phase de catégorisation de l’apprentissage supervisé (faite par des humains donc) est un processus très gourmand en ressource. Laisser l’intelligence artificielle s’en occuper elle-même présente donc un avantage indéniable. Les algorithmes d’apprentissage non supervisé peuvent exécuter des tâches de traitement plus complexe que les systèmes d’apprentissage supervisé, mais ils peuvent aussi être plus imprévisibles (une autre caractéristique qui les rapproche des humains…). Lorsqu’on lui demande de faire le tri entre différents animaux, une intelligence artificielle qui repose sur l’apprentissage non supervisé peut aussi ajouter des catégories de façon inattendues et non désirées, ce qui peut créer la confusion au lieu de mettre de l’ordre. 

Des chercheurs de WorkFusion, une entreprise qui propose des solutions innovantes d’intelligence artificielle, tentent même d’aller plus loin. Ils développent une technologie qui observe le travail de catégorisation des humains qualifiés pour la tâche. Elle analyse leur façon de créer des catégories via une batterie d’algorithme qui sont mis en concurrence entre eux pour déterminer celui qui produira les résultats les plus pertinents. Lorsque le processus d’apprentissage est terminé, les humains qui effectuaient précédemment la catégorisation se contentent de corriger les cas extrêmes. Une fois que les résultats sont satisfaisants, l’intelligence artificielle peut prendre doucement le relais des agents humains. En plus de nous voler notre travail, ils le copient…

Quelles applications ?

C’est bien beau tout ça, mais dans quels domaines et comment l’apprentissage non supervisé est-il utilisé ? Pour le moment, l’apprentissage non supervisé en est à ses débuts, mais beaucoup d’espoirs sont portés là-dessus, notamment pour la détection d’anomalies (si vous ne savez pas ce que c’est, il y a un article très intéressant sur une revue d’IA de très grande qualité qui traite de ce sujet 😉). On espère, grâce à l’apprentissage non supervisé, être capable de repérer des pannes avant qu’elles surviennent, de détecter des failles en cybersécurité. Nous sommes donc bien loin du mythe du méchant robot qui veut nous soumettre à l’esclavage…

L’apprentissage non supervisé est encore trop peu exploité de façon concrète, cela est en grande partie du au fait qu’on peut avoir des phénomènes de boites noires. Dans le sens ou on ne peut pas toujours expliquer de façon parfaite pourquoi l’algorithme donne tel ou tel résultat. Ceci le rend notamment inutilisable (pour l’instant) pour le domaine de la santé ou de l’armement, pour lesquelles les exigences en termes d’analyse de données sont plus grandes.