Panorama de l'apprentissage supervisé

Panorama de l’apprentissage supervisé

Le machine learning se divise principalement en deux catégories : l’apprentissage supervisé et l’apprentissage non supervisé.

Panorama de l'apprentissage supervisé

En apprentissage supervisé (supervised learning) un algorithme apprend à partir de données labellisées. Dans le sens ou chaque élément de notre dataset a un nom. C’est ce qui permet au modèle d’utiliser ce label.

En apprentissage non supervisé (unsupervised learning), l’algorithme apprend de manière autonome. Comme l’intitulé le suggère, le sujet de cet article est l’apprentissage supervisé.

L’apprentissage supervisé a pour but d’utiliser les données d’entrées (inputs) afin de prédire les valeurs de sorties ( outputs ou réponses).

Un exemple pour mieux comprendre


L’exemple ci-dessus permettra de mieux comprendre toutes ces définitions. Pour trier ses lettres, La Poste est amenée à utiliser des systèmes de reconnaissance de chiffres manuscrits pour identifier le code postal du destinataire.

Chiffres de 0 à 9 pour la reconnaissance automatique par computer vision par apprentissage supervisé
Données d’entrainement pour le système de reconnaissance de chiffres de La Poste


On fournit à l’algorithme plusieurs exemples de chiffres écrits avec différentes écritures que l’on classe dans l’ordre et que l’on labellise : ici par l’ensemble des outputs O={0,1,2,3,4,5,6,7,8,9}. 

L’objectif est que l’algorithme trouve des similarités entre ces chiffres et le chiffre que l’on veut tester puis qu’il le range dans la bonne catégorie. Vous devez vous demander comment cela fonctionne. Une manière de faire est d’associer chacune des images à une matrice dont les valeurs correspondent au niveau de gris de chaque pixel puis de comparer ces matrices à la matrice qui correspond à l’image que l’on veut tester.

Ce problème pourrait aussi être abordé d’un point de vu non supervisé. Dans ce cas on donne les images à notre modèle et on s’attend à ce qu’il réussisse à établir des similarité entre les chiffres. Il doit être en mesure de regrouper tous les images représentants les mêmes chiffres dans le même groupe.

Le non supervisé est le Graal du machine learning


Comme le problème précédent beaucoup de problèmes de machine learning peuvent être résolu par les deux approches. L’apprentissage supervisé donne plus de garantie et dans la majorité des cas donnera des résultats plus précis.

Néanmoins pour faire de l’apprentissage supervisé les données disponibles doivent être structurées et labellisées. Malheureusement c’est rarement le cas, surtout pour des problématiques concrètes rencontrées en entreprises.

C’est pour cela que l’apprentissage non supervisé est de façon générale beaucoup plus utiles. D’ailleurs le machine learning progressera certainement dans ce sens. De nouveaux algorithmes d’apprentissage non supervisé vont voir le jour petit à petit. Aujourd’hui beaucoup de modèles non supervisés sont utilisés. On peut prendre les exemples de DBScan ou de k-means, qui sont très utilisés pour le clustering de données de façon non supervisée.

De l’apprentissage supervisé aux IA moins gourmandes en données ?


Au delà de l’évolution des modèles de machine learning non supervisés, l’objectif de la communauté IA est (sur le long terme) de pouvoir construire des IA moins gourmandes en données.

Evidemment cela semble être assez utopique pour le moment. Surtout lorsque l’on a conscience des quantités de données astronomiques nécessaires à la conception de modèles fiables. Mais je suis convaincu que si l’intelligence artificielle veut passer dans une nouvelle dimension, ça sera un passage obligatoire.

Même si ce n’est pas envisageable sur le court terme, la recherche dans ce domaine se doit d’être beaucoup plus active. Les dégâts engendrés par le traitement de données en masse sont réels.

Le désastre est surtout écologique. Partout dans le monde des hectares de terrains abritent des serveurs. Derrière sont doux nom, le cloud computing fait allusion à toutes les infrastructures misent en place pour stocker et traiter l’information disponible. Ne vous détrompez pas. Vos données ne sont pas stockées dans les nuages…

D’ailleurs, de récentes études ont montrées comment ce système de stockage et de traitement ont un impact sur l’écologie. Ils contribuent à l’augmentation de façon considérable les émissions de CO2.



Finalement, s’ils ont veut vraiment faire progresser le machine learning, il faudra changer nos méthodes. L’accumulation et le traitement de données en quantités de plus en plus grandes, n’est certainement pas le meilleur moyen de fonctionner. Concevoir des IA et entraîner des réseaux de neurones avec moins de données serait un progrès énorme pour l’humanité.