GPT-4

Tout ce qu’il faut savoir sur GPT-4

Article rédigé par Alexandre Lavallée et Ilyes Talbi.


Par une présentation live menée par, Greg Brockman, OpenAI a dévoilé sa dernière merveille, GPT-4, mettant en émoi la communauté de l’IA avec l’anticipation des applications révolutionnaires que ce modèle linguistique avancé promet.

Hasard du calendrier, ou véritable astuce de la part d’openAI, cette annonce vient totalement éclipser l’annonce de teasing de l’arrivée de features similaires dans Google Workspace [lien article / annonce vidéo] – signe qu’une lutte acharnée est en train de se dérouler dans l’univers du Generative AI et des LLMs.

OpenAI a passé les deux dernières années à développer GPT-4, en travaillant sur la formation, les tests et l’optimisation du modèle afin de fournir aux développeurs un outil puissant et polyvalent.

La diffusion en direct a démontré la capacité de GPT-4 à effectuer des tâches que GPT-3.5 avait du mal à réaliser, en mettant en évidence ses capacités de pilotage accrues et le nouveau terrain de jeu pour les complétions de conversation.

Cette dernière utilise un format structuré, permettant aux développeurs de fournir des instructions claires et rendant le modèle plus réactif aux entrées de l’utilisateur.

ChatGPT vs GPT-4

Mais qu’est-ce qui différencie GPT-4 des versions précédentes comme ChatGPT et GPT-3.5 ? Voici les cinq principales différences entre ces systèmes populaires.

Petit rappel, bien que ChatGPT ait été décrit à l’origine comme étant GPT-3.5 (et donc quelques itérations après GPT-3), il ne s’agit pas d’une version du grand modèle de langage d’OpenAI, mais plutôt d’une interface basée sur le chat pour n’importe quel modèle. Le système ChatGPT qui a explosé en popularité au cours des derniers mois était un moyen d’interagir avec GPT-3.5, et maintenant c’est un moyen d’interagir avec GPT-4.

Ceci étant dit, examinons les différences entre le chatbot que vous connaissez et aimez et son successeur nouvellement augmenté:

1. Une logique et un esprit de raisonnement renforcé

Lors du livestream, le public dans le chat a été invité à participer et à suggérer des tâches à effectuer par le GPT-4. Les démonstrations ont mis en évidence l’amélioration de la capacité de GPT-4 à comprendre et à exécuter des tâches complexes, même lorsqu’il est soumis à des contraintes difficiles telles que la génération de résumés avec des mots commençant par des lettres spécifiques (george pennec n’a qu’à bien se tenir).

OpenAI a également présenté la capacité du modèle GPT4 à combiner de manière flexible des idées entre différents articles et à trouver des thèmes communs. Démontrant les capacités de compréhension et de synthèse du langage du modèle, il a généré un poème rimé basé sur l’article du blog GPT-4, mettant en évidence le potentiel créatif de l’IA.

Ses capacités en calcul mental ont été nettement améliorées.

OpenAI a montré comment le modèle de GPT-4 pouvait être utilisé pour comprendre et naviguer dans un contenu dense, tel que des documents fiscaux administratifs très lourd. Pour ce faire, GPT-4 a été chargé d’aider à calculer une taxe très particulière pour un couple de deux personnes. Bien que GPT-4 ne soit pas un fiscaliste certifié, il s’est avéré utile pour interpréter le code fiscal complexe et parvenir à la bonne réponse.

2. capacité d’ingérer du contenu existant pour se mettre à jour

Greg Brockman s’est attardé à montrer un exemple particulièrement intéressant: utiliser GPT4 pour créer un bot Discord en tant que partenaire de code.

démonstration de GPT-4

Lors de la création du bot, il a été révélé que la fin du training de GPT-4 était en 2021, ce qui signifie qu’il n’avait pas vu des nouvelles mises à jours critiques sur Discord qui ont eu lieu en 2022. OpenAI a démontré la capacité du modèle à gérer des changements plus récents dans l’API Discord, sur laquelle il n’avait pas été formé. En fournissant à GPT-4 la documentation mise à jour, il a réussi à identifier le problème de la réception de contenus de messages vides et a suggéré une solution en activant l’intention du contenu du message.

3. “Multimodal AI is here”, GPT-4 peut voir et comprendre des images en input:

Le changement le plus notable dans ce système d’apprentissage automatique polyvalent est qu’il est « multimodal », c’est-à-dire qu’il peut comprendre plus d’une « modalité » d’information. ChatGPT et GPT-3 étaient limités au texte : Ils pouvaient lire et écrire, mais c’était à peu près tout (bien que ce soit plus que suffisant pour de nombreuses applications).

GPT-4, en revanche, peut recevoir des images et les traiter pour trouver des informations pertinentes. Vous pouvez simplement lui demander de décrire ce qu’il y a dans une image, bien sûr, mais sa compréhension va plus loin.

Dans le live on a pu voir de manière sidérant les capacités de reconnaissance d’images de GPT-4 (qui n’en sont pourtant encore qu’au stade de preview). Le modèle a été utilisé pour décrire et dire pourquoi une image en particulier était drôle :

GPT-4 image

Le cas d’utilisation créative de GPT-4 qui nous a le plus particulièrement marqué: le modèle a été chargé de générer le code HTML d’une maquette dessinée à la main d’un site web de blagues.

voila à quoi ressemble le schéma:

GPT-4 html css javascript use case

D’une image à du code HTML/JS…

Tout ce qu'il faut savoir sur GPT-4

L’IA a réussi à transformer la maquette en un code HTML fonctionnel et compatible avec JavaScript…

Tout ce qu'il faut savoir sur GPT-4

Ce segment a mis en évidence la flexibilité de GPT-4, son impressionnante compréhension linguistique et visuelle, ainsi que sa capacité à s’adapter aux récentes mises à jour des API, montrant qu’il peut être un outil puissant pour les développeurs dans le cadre de diverses tâches et applications.

4. GPT-4 a une mémoire plus longue :

Les grands modèles linguistiques comme GPT4 sont entraînés sur des millions de pages Web, de livres et d’autres données textuelles. Cependant, lorsqu’ils conversent avec un utilisateur, il y a une limite à ce qu’ils peuvent garder « en mémoire » (en quelque sorte). Cette limite pour GPT-3.5 et l’ancienne version de ChatGPT était de 4 096 « tokens », soit environ 8 000 mots ou quatre à cinq pages d’un livre. Ainsi, il perdait la trace des choses dépassant cette limite.

GPT-4 a un maximum de 32 768 tokens, soit 2^15, si vous vous demandez pourquoi ce nombre semble familier. Cela correspond à environ 64 000 mots ou 50 pages de texte, suffisant pour une pièce de théâtre ou une nouvelle.

Cela signifie qu’en conversation ou en générant du texte, il pourra garder en mémoire jusqu’à 50 pages environ. Il se souviendra des discussions de 20 pages en arrière ou, en écrivant une histoire ou un essai, pourra se référer à des événements survenus 35 pages plus tôt. C’est une description approximative de la manière dont fonctionnent le mécanisme d’attention et le nombre de tokens, mais l’idée générale est une mémoire étendue et les capacités qui l’accompagnent.

Comment fonctionne GPT-4

Les chercheurs d’OpenAI sont restés très vagues sur le processus d’entraînement de GPT-4, mais il n’a pas l’air très différent des versions précédentes. Pour rappel ces modèles, reposent sur la prédiction du mot suivant dans un texte.

Il a été entraîné en utilisant des données accessibles au public sur internet ainsi que des données sous licence privée.

Comme pour ChatGPT, GPT-4 repose sur le RLHF, qui est une technique qui permet de faire du reinforcment learning dans un contexte plus subjectif dans lequel la fonction de reward est difficile à définir.

Toujours plus de données, toujours plus de paramètres

GPT-4 prouve une tendance qui se dessine depuis 2017 : on ne fait plus de vraies innovations sur les aspects techniques. Sur les sujets de traitements du langage notamment.

Les transformers ont une architecture qui permet de scaler, on se content donc d’agrandir la quantité de données et d’ajouter toujours plus de paramètres.

OpenAI a un avantage qui sera difficile à rattraper, à part peut être pour les mastodontes américains : ils ont commencé avant tout le monde.

Surtout que maintenant, leur partenariat avec Microsoft est encore plus solide, et cela ne fait que renforcer le pouvoir de ces 2 entreprises.

Le monopole du monde du traitement du langage n’a jamais été aussi énorme, je n’ai pas de solution, mais souvent je reviens à la même conclusion : #décentralisation

Quelles sont les limites ?

Bien que GPT-4 soit un modèle de langage avancé, il présente encore certaines limites importantes.

  • Les erreurs de raisonnement et les inventions de faits sont des problèmes persistants qui peuvent compromettre la fiabilité des sorties de modèle de langage, en particulier dans des contextes à haut risque. D’autant plus que comme ChatGPT, GPT-4 donne les informations de façons très claires et en étant sur de lui.
  • De même, GPT-4 ne dispose pas d’une connaissance complète des événements qui ont eu lieu après septembre 2021, et il n’est pas capable de se ré-entraîner en continu.
  • Il fait parfois des erreurs de raisonnement simples et est trop crédule en acceptant des informations évidemment fausses données par l’utilisateur.

Le caractère “politiquement correct” du modèle, qui a poussé Elon Musk a lancer ses propres recherches, sera encore plus exacerbé d’après ce que l’on peut lire sur le dossier technique publié par OpenAI.

Certes cela permet de sécuriser les réponses fournies par le modèle, mais ça peut le limiter dans certains cas.

Conclusion

L’IA générative est de plus en plus mature, les derniers modèles sont impressionnants et ça ne fait que commencer.

OpenAI a sorti GPT-4, les autres mastodontes regardent et pleurent pour le moment. Comme d’habitude, en plus de la leçon technique qu’openAI a donné, ils ont donnée une leçon de marketing, de communication et leur image de marque n’a jamais été aussi affirmée.

Mais la guerre n’est pas finie…

Stability.ai, est l’affut, leur réponse devrait arriver dans les semaines, les mois à venir. Google se relèvera sans doute, et contrairement aux apparences, Meta n’est jamais tombée.

Je voudrais finir cet article par une image iconique du passage de GPT-3 à GPT-4, on a maintenant la nouvelle version 😅 :

Tout ce qu'il faut savoir sur GPT-4