Qu'est-ce que l'intelligence artificielle décentralisée ?

Qu’est-ce que l’intelligence artificielle décentralisée ?

Le web2 est cassé. Et comme lui, l’IA est cassée. Monopole, biais, manque de transparence; la liste des infractions est longue.

De manière générale, le monde digital que nous avons construit, si on le juge avec détachement et objectivité, est finalement assez absurde.

On offre nos données gratuitement, les algorithmes du web savent ce que l’on aime, ce que l’on mange, comment on va s’habiller demain, les informations que l’on publie ne nous appartiennent plus, et la censure est centralisée, et contrôlée par des organisations toutes puissantes.

OpenAI vous veut du bien

Ces dernières semaines, nous avons clairement vu les limites des modèles comme celui d’OpenAI ou Deepmind, qui se sont éloignés de leur mission initiale : proposer des modèles qui bénéficient à tout le monde.

Pire encore, ils utilisent les données de tout le monde, pour créer des modèles qui ne bénéficient qu’à leurs créateurs, bloquent l’accès aux outils, sous prétexte qu’ils savent mieux que nous ce qui est bien pour nous, et utilisent l’argument éthique pour le justifier…

Le cas DALL-E 2 montre le manque de transparence devenu symptomatique pour les IA d’aujourd’hui. Des modèles entraînés avec les données du peuple, pour le bien du peuple, finalement accaparés par une poignée de privilégiés.

Les artistes et photographes qui publient leurs travaux sur Instagram sont-ils au courant de ce qui se passe ?

Même si OpenAI a apporté beaucoup au monde de l’IA, beaucoup de choses ont changé ces dernières années.

Un monopole démesuré

En plus de ce manque de transparence, ce sont les mêmes acteurs qui contrôlent toutes les données générées par les internautes.

Sur des sujets aussi critiques que la compréhension du langage, seuls quelques mastodontes sont capables de réellement innover : Amazon, Google, Meta et quelques autres entreprises. La course aux données et aux modèles de plus en plus larges est perdue d’avance pour la majorité des acteurs.

Les architectures des derniers modèles ne sont pas si novatrices que ça, elles consistent simplement en un empilement de couches de plus en plus grand, et l’ajout d’une quantité quasi-infinie de données. Et pour les géants cités juste avant, ni la capacité de calcul ni la quantité de données ne sont des problèmes.

Même si certaines de ces entreprises ont été rattrapées par les autorités européennes pour leur monopole sur certains sujets, elles n’ont jamais été inquiétées sur la question de la quantité de données stockées.

Le modèle open-source : une alternative qui a ses limites

Le modèle open-source semble résoudre les problèmes énoncés précédemment. Pour la transparence la question ne se pose pas, les données et le travail résultant sont visibles publiquement. Concernant le monopole, il permet un accès équitable pour tous les acteurs.

C’est d’ailleurs cette approche là qu’a choisi Stability.ai, l’entreprise à l’origine du modèle stable diffusion. En plus d’être plus robuste et plus rapide, stable diffusion est complètement open-source.

Stability.ai a d’ailleurs annoncé une levée de fonds de 101 millions de dollars, pour mettre en place une nouvelle approche d’entreprise à impact dans le domaine de l’IA.

Mais l’open-source ne résout pas tous les problèmes.

Jusqu’ici c’était un monde à part, régi par des règles tacites et qui reposait sur la confiance et la collaboration. Sauf que des récents événements ont montré sa vulnérabilité, comme Marak Squirres qui a saboté son propre projet et causé pas mal de dégâts (on parle de dizaines de milliers de projets concernés), ou encore les débats causés par le lancement de GitHub copilot.

Concernant l’affaire Marak Squirres, les médias mainstream ont abordé le sujet en se demandant « comment sécuriser les projets open source ? », comme pour remettre en cause la fiabilité du modèle.

Nous sommes d’accord, la question se pose et elle est importante, mais l’urgence est plutôt de savoir comment rendre le monde du open source plus juste et récompenser les contributeurs les plus assidus.

L’intelligence artificielle décentralisée comme solution ?

Je ne fais pas partie de ceux qui clament la décentralisation à chaque revers du modèle classique. J’analyse les évènements de façon pragmatique et rationnelle, et je suis conscient que la blockchain n’est pas une baguette magique solution à tous nos maux. Mais je pense que si l’on veut faire passer l’intelligence artificielle dans une nouvelle dimension, il faut du changement.

L’intelligence artificielle décentralisée est un nouveau paradigme dans lequel les données et les modèles qui en résultent appartiennent à tous les membres d’un réseau. Les données sont collectées et labellisées collectivement, et chaque membre apporte une partie de la puissance de calcul nécessaire à l’entraînement du modèle, on parle de federated learning ou apprentissage fédéré.

Le premier avantage du réseau décentralisé, est qu’il permet à chaque membre d’avoir un intérêt à ce que le réseau fonctionne bien. Si le réseau fonctionne le membre gagne, si le réseau ne fonctionne plus il perd.

Par ailleurs, les gains finaux sont partagés équitablement, chacun étant récompensé à la hauteur de son apport : l’artiste qui publie ses travaux sera gratifié pour leur utilisation, l’internaute sera payé pour ses données, le data scientist qui propose une architecture ou des solutions techniques aussi, et tout le monde peut bénéficier au réseau en apportant un espace de stockage ou de la capacité de calcul.

Enfin, d’un point de vue traçabilité aussi la blockchain a des arguments. Elle permettra de tracker avec plus de transparence les échanges de données, et donc permettra de remonter plus facilement à la source.

Contrairement à ce que certains suggèrent, ce modèle n’est pas un spin-off du communisme au service de l’intelligence artificielle, c’est simplement une alternative et un contrôle d’un capitalisme destructeur.

Conclusion

Pour conclure, même si cet article pose plus de questions qu’il ne donne de réponses, l’objectif est de constater les limites de l’intelligence artificielle d’aujourd’hui, et prendre conscience qu’un changement s’impose.

Même si les solutions les plus robustes sur le long terme seront celles apportées par la recherche : Comment créer des architectures de réseaux plus fiables et qui consomment moins de données ? Comment mieux assurer l’explicabilité des modèles ? Des sujets comme le self-supervised learning, largement promu par Yann Le Cun, sont la clé des problématiques actuelles.

De façon plus globale, on tend vers une convergence entre toutes les technologies disponibles aujourd’hui : l’IoT pour la récolte des données, la blockchain et la cybersecurité pour la confiance et la traçabilité, l’intelligence artificielle pour le traitement, et des technologies comme la robotique ou la réalité virtuelle pour l’interfaçage. Et il est clair que le tout sera bien plus grand que la somme de ses parties.