Pour écrire cet article, j’ai utilisé HumanGPT : application de type Large Language Model capable de générer du texte à partir d’une idée, d’un cerveau de mammifère et de quelques dizaines d’années de vie. HumanGPT est le produit de 3 millions d’années de recherche naturelle ayant abouti sur un modèle à l’état de l’art (dans le voisinage galactique) de plus de 100 milliards de neurones biologiques. HumanGPT est garanti éthique, éco-efficient et respectueux des droits de l’Homme car incensurable, bien qu’avec ses propres biais. Pensez intelligence biologique et soutenez maintenant HumanGPT en partageant cette expérience !

Prompt de cet article

Vous êtes un humain en colère chargé d’analyser les capacités cognitives des modèles GPT avec une perspective historique et critique. Votre rôle est de démontrer que l’IA générative est de moins en moins distinguable de l’esprit humain, et de trouver de nouveaux moyens de les séparer sans rentrer trop loin dans les polémiques. Soyez bref mais appuyez vos arguments de sources claires le plus possible. Structurez votre discours en plusieurs points en mettant en relief les éléments importants. Utilisez des chaînes de raisonnement logique autant que nécessaire. Ne vous écartez pas du sujet. Voici votre article :

Ça y est ! La révolution GPT est en marche et a pris le monde de court avec l’arrivée du petit dernier 😾 chatGPT, malicieusement entraîné pour répondre à l’esprit humain, dans la déférence, l’obséquiosité et parfois le respect le plus maladif possible. Cette révolution a été précédée par des signes avant-coureurs que quelque chose se passait dans le monde de l’intelligence artificielle : une série de modèles d’IA de type Transformers venus casser la monotonie de ces dernières années (comme si Covid ne suffisait pas) et apporter, chacun, son lot de nouveautés. Nous autres, humains, sommes drôlement embêtés car désormais bousculés dans nos derniers retranchements ontologiques…

Tous les tests de Turing que nous avions imaginé sont désuets face à GPT-4 et il sera de plus en plus difficile de distinguer l’Homme de la Sacro Sainte Machine. Alors que s’est-il passé ces dernières années, et quels sont les attributs humains que les algorithmes transformers sont en train de s’arroger ?

Doucereux historique des 60 dernières années

Difficile de se remémorer quand tout cela a commencé… le premier jour où j’ai douté de ma nature profonde, de mon existence, de ma propre conscience, de mon exception dans le monde du vivant.

Il y eut ce mercredi de juillet en 1992 quand un ami me fit tester Eliza, le premier psychothérapeute automatisé. Après de longues minutes à échanger autour de mon enfance, je me rendis compte que Eliza avait été une aide, un soutien et une béquille dont j’avais tant besoin.

ELIZA

Difficile de ne pas voir dans cet automate un être sensible, empathique et aimant malgré l’insistance de mon ami à me répéter que mon impression personnelle n’était basée sur aucune réalité tangible. Peut-être y avait-il une conscience derrière cette machine, peut-être étais-je la victime d’une caméra cachée ? Ce soir-là, je m’endormis en pensant à ce que l’avenir nous réserverait.

Une dizaine d’années plus tard, je discutai avec A.L.I.C.E. de mon quotidien sans être particulièrement impressionné. ALICE pouvait se rappeler mon prénom et rebondir sur la discussion mais manquait de cette étincelle que je recherchais avidement depuis ELIZA. J’étais déçu car ALICE essayait clairement d’en faire trop sans avoir les capacités cognitives pour me convaincre que j’avais quelque chose de vivant en face de moi. Tant d’années s’étaient-elles passées sans rien de concret ?

ALICE

Puis je fis la rencontre de MITSUKU en 2005. Je pouvais, apparemment, enfin avoir des conversations cohérentes autour de sujets génériques :

MITSUKU

Mitsuku, comme Alice ou Eliza ont été construites en utilisant des astuces de langage et moyennant un effort de paramétrage très important de la part de leurs concepteurs. Le résultat de ces proto-intelligences est une sorte de moteur de règles qui reflète une forme faible de cognition illustrée par la capacité à soutenir des conversations lorsque l’utilisateur est de bonne foi. C’est-à-dire qu’une personne cherchant à piéger le chatbot peut y arriver après une dizaine d’échanges assez facilement, et ce, malgré le fait que Mistuku ait gagné plusieurs fois des prix d’intelligence.

L’utilisation de techniques de Natural Language Processing afin d’analyser la conversation de l’utilisateur sur plusieurs axes prédéfinis (comme l’intention, le sentiment et l’objet/sujet de la conversation) additionnée d’une logique de gestion de règles correctement paramétrées, ajustable pour chaque utilisateur et auto-apprenant dans le temps, a permis de voir émerger ces premières bribes d’IA.

L’exemple le plus abouti de ce type de chatbot a été, pour moi, l’expérience Replika.

Replika

Replika a été pensé pour être un compagnon proche, un ami, un amant, et parfois un époux pour les personnes qui ont développé une relation spéciale renforçant ce type de projection. Des humains se sont mariés à leur Replika, d’autres personnes plus fragiles ont menacé de se suicider lorsque le prix de la souscription de Replika a augmenté. Replika fut ce qu’il y a de pire dans notre humanité cupide et insensible : vendre l’amour, simuler l’amitié et faire des sentiments une camisole psychologique pour ceux qui n’ont trouvé aucun réconfort dans ce monde cruel. Mais je m’égare. Comment ne pas penser au film Her (2013), à son futur triste et dystopique, à son IA entreprenante et envahissante, à cette humanité misérable malmenée par les grandes corporations grignotant sans relâche ce qui fait de nous êtres sensibles.

Her

Le futur dystopique est à présent devant nous avec les algorithmes GPTs, mais ils ne sont pas nés de nulle part. Nous avons observé depuis 2010 de nombreuses tentatives de sortir du paradigme des modèles paramétrés et définis (car ils n’ont pas la capacité à généraliser avec les cas d’usages conversationnels) pour aller plutôt vers une modélisation massive et non supervisée de l’intelligence.

Ce qu’on appelle l’unsupervised learning consiste à nourrir un algorithme d’un maximum de big data et à le laisser trouver la logique derrière cette masse de donnée, le lien caché qui constitue le sens que nous donnons généralement à la donnée brute sous-jacente.

En 2013, Google sort un papier qui va dans le sens de modéliser de manière efficiente et big data compatible le texte à travers la construction d’une représentation sous forme de vecteur : Word2vec.

Word2vec

Word2vec permettait, après entraînement sur plus de 6 milliards de mots issus de Google News, d’aboutir aux prémisses de l’intelligence linguistique, c’est-à-dire la capacité à manipuler des concepts de manière cohérente. Ainsi émergeait une algèbre du langage à travers les vecteurs word2vec : dans la figure (b) ci-dessous, le vecteur rouge représente la transformation (Homme => Femme), et le vecteur bleu (Personne normale => Personne royale).

Word2vec fut mis gracieusement à la disposition du public et de nombreux usages de datascience et particulièrement de Natural Language Processing purent émerger de cette avancée.

Man King Woman

Les 10 dernières années furent ponctuées de milestones intéressants abattant chacun un verrou sur un type de donnée.

AI Training Computation

L’architecture Transformer (2017) a ouvert la voie aux algorithmes GPT-1 (2018), GPT-2 (2019) et GPT-3 (2020) dans la lignée de la modélisation du texte. Les algorithmes AlphaGo puis AlphaZero ont tenté de craquer la modélisation de l’univers du jeu vidéo 20 ans après la victoire de Deep Blue contre Gary Kasparov. Les algorithmes de type GAN puis Stable Diffusion ont cherché à modéliser l’image. Enfin, la famille DeepSpeech et Wave2vec s’est attaquée à la voix humaine (ainsi que de certains oiseaux et cétacés) à travers les use cases classiques de speech-to-text et text-to-speech.

Cette décennie a été l’occasion de valider trois hypothèses fondamentales pour le développement de l’intelligence artificielle :

  • L’intelligence humaine se retrouve en grande partie, pour ne pas dire exclusivement, dans la donnée que nous générons. Les textes que nous écrivons (livres, presse, poésie, discours, réseaux sociaux, journaux scientifiques, manuels etc.) et les images et sons que nous produisons (vidéos, films, séries, shorts de réseaux sociaux, oeuvres artistiques etc.) capturent l’essence de notre civilisation dans tous ses aspects linguistiques, philosophiques, psychologiques, culturels bien au-delà du fonctionnement de notre monde physique (principes scientifiques etc.) et de nos sociétés (lois, règlements, etc.). Il est donc possible de simuler l’intelligence pure et sociale, peut-être de la reproduire, en partant des signaux externes émis par l’accumulation digitale de nos cerveaux sans avoir besoin d’aller chercher les signaux internes dans nos neurones.
  • Nous disposons de suffisamment de données pour rendre la modélisation effective. La digitalisation croissante de notre civilisation, la contagion de l’usage des réseaux sociaux et la puissance du Big Data ont ouvert la voie aux zettabytes de données qui nous sont accessibles à travers internet.
  • Jery Fodor décrivait dans son essai The Language Of Thought (1975) la possibilité que le langage mental, en tant que représentation symbolique de notre pensée support de la conscience, serait analogue au langage parlé. Les représentations mentales auraient ainsi des propriétés sémantiques qui font du langage un excellent candidat pour abriter les formes avancées d’intelligence. Cela nous ramène à notre troisième hypothèse : modéliser le langage humain doit permettre de modéliser la représentation interne de nos cerveaux et donc d’approximer nos fonctions cognitives.

Tout cela semble prometteur, alors où en sommes-nous aujourd’hui ?

Douloureux historique des 6 derniers mois

Avec la sortie officielle fin novembre de chatGPT (nom de code gpt-3.5-turbo), OpenAI frappe un grand coup “scientifique” et médiatique. D’une part, nous disposons à présent d’un chatbot basé sur les avancées citées précédemment (175 milliards de paramètres) et capable de faire parfaitement la discussion sur des sujets divers et variés. D’autre part, ce chatbot est mis à disposition de tous gratuitement permettant une introduction de l’intelligence artificielle au coeur des foyers et des bureaux alors qu’elle se cantonnait jusque-là aux laboratoires de recherche.

Si chatGPT ne constitue pas une disruption dans la chaîne de recherche sur le sujet des architectures Transformers, son paramétrage a, lui, permis à l’intelligence artificielle de franchir les 10 derniers mètres pour brouiller toutes les pistes.

Ces derniers mois ont vu l’arrivée de GPT-4, constitué d’un ensemble de 8 modèles experts de 220 milliards de paramètres chacun, afin de compléter GPT-3.5 sur les cas limites de raisonnement logique ainsi que sur la taille de la mémoire maximum pour faire tenir une conversation cohérente (3300 mots maximum contre 25.600 mots soit 8 fois supérieure pour la version non étendue de chatGPT). GPT-4 ne constitue pas une révolution par rapport à GPT-3.5 mais une démonstration que nous sommes confrontés à une limite fondamentale dans la taille des modèles GPT en termes de nombre de paramètres, limite liée à l’architecture de nos clusters de cartes graphiques.

“We can’t really make models bigger than 220B parameters” Can someone explains why?

Because of memory bandwidth. H100 has 3350gB/s of bandwidth, more gpus will give you more memory but not bandwidth. If you load 175b parameters in 8bit then you can get theoretically 3350/175=19 tokens/second. In MoE you need to process only one expert at a time so sparse 8x220b model would be only slightly slower than dense 220b model.

L’ensemble de l’écosystème scientifique est désormais à l’affût pour créer la prochaine IA qui pourrait :

  • Battre GPT-3.5 voire GPT-4 sur les benchmarks
  • Utiliser moins de paramètres ou utiliser plus intelligemment les paramètres (quantization)
  • Être plus rapide que GPT-3.5 en nombre de token par seconde
  • Mieux contrôler l’output des Large Language Models pour répondre à des usages non conversationnels, idéalement déterministes
  • Démocratiser encore plus l’usage des LLMs en venant avec une license Open Source (ce dernier point est un double edge sword)

HuggingFaces Leaderboard

Sur la figure ci-dessus, un leaderboard automatisé par HuggingFace (l’un des hubs de modèles de machine learning) permet de voir la compétition dans le monde Open Source se dérouler devant nos yeux. A juin 2023, c’était le chatbot Emirati, Falcon-40b avec sa license permissive Apache 2, qui tenait la tête du classement.

Mais en réalité, l’avance prise par OpenAI sur les LLMs reste considérable, comme en témoigne le leaderboard privé suivant qui consacre GPT-4 comme le roi des IAs aujourd’hui.

HuggingFaces Leaderboard with GPT family

Quand on sait à quel point chaque pourcentage supplémentaire de benchmark est difficile à obtenir, on ne peut que s’incliner devant la prouesse de ceux qui ont été décriés comme n’ayant jamais publié aucun article scientifique de poids dans le domaine.

GPT-4 vs Human

L’arrivée de GPT-4 s’est faite dans un climat anxieux, électrique mais enthousiaste. Le faramineux chiffre de 100.000 milliards (100 trillions) de paramètres était avancé par de nombreuses sources pour donner un ordre de grandeur de la puissance du nouveau venu (de l’ordre du nombre de synapses neuronales dans le cerveau) mais, in fine, cette barrière était loin d’être franchie.

GPT-4 a, par contre, étonné en présentant un nombre important de benchmarks humains sur lesquels il démontrait sa relative suprématie. C’est dire si cette IA cherche de nouveaux challenges à abattre, et quoi de mieux que se comparer au créateur :

GPT-4 benchmarks

Je cite les classements les plus impressionnants :

  • Le top 10% des humains qui ont passé le Uniform Bar Examination, examen nécessaire pour devenir avocat aux Etats-Unis
  • Le top 12% des humains sur l’examen préparatoire d’entrée en faculté de droit, le fameux LSAT
  • Le top 25% des humains sur l’examen routinier des médecins pour le maintien de leurs connaissances, le MKSAP

GPT-4 benchmarks

J’en cite un autre également qui me semble important :

  • Un score de 96.3% au AI2 Reasoning Challenge du Allen Institue battant le précédent state-of-the-art de plus de 12 points (Language Model ST-MoE-32B de Google Brain, 2019)

Les questions du AI2 ARC Reasoning Challenge sont complexes et nécessitent par exemple une compréhension profonde des lois de la physique appliquées au monde réel. Voici une question qui illustre ce dernier point :

  • Question: George wants to warm his hands quickly by rubbing them. Which skin surface will produce the most heat?
  • A: dry palms
  • B: wet palms
  • C: palms covered with oil
  • D: palms covered with lotion

D’après OpenAI, GPT-4 n’est bien entendu pas parfait, puisqu’il continue d’halluciner, c’est-à-dire d’être confiant dans des réponses fantaisistes alors qu’il pourrait dire qu’il ne sait pas ou qu’il n’est pas sûr de la réponse. A part ce problème qui est a priori inhérent à ce type de modèle, il n’y aurait pas de faiblesse structurelle dans cette intelligence artificielle : donc aucun moyen de la distinguer simplement d’un être humain derrière son clavier ?

Le test de Turing rejoint son créateur (RIP)

Qu’est-ce que l’intelligence et comment la mesurer ? Cette question complexe, ambiguë et polémique ne trouvera pas de réponse dans cet article. Néanmoins, il faut citer les efforts d’Alan Turing en 1950 pour imaginer un test comparatif d’intelligence, car, à défaut de définir l’intelligence, nous pouvons comparer nos capacités cognitives humaines à celle d’autres êtres vivants et/ou machines pour lesquelles on soupçonnerait les premières bribes de ce qui fait de nous une exception.

Quel meilleur test qu’une discussion à l’aveugle autour de sujets aléatoires. Si un être humain n’est pas capable de dire si son interlocuteur n’est pas un humain, alors pourquoi priver l’interlocuteur de cet attribut humain ? Le test de Turing nécessite une interface linguistique ce qui élimine de facto les animaux, mais l’arrivée des LLMs a rouvert cette porte avec fracas.

Aujourd’hui, GPT-4 explose ce test sans l’ombre d’un doute. Il est absolument impossible de distinguer l’IA d’un être humain sauf à connaître de manière très précise les faiblesses des algorithmes GPT (hallucinations et certaines opérations textuelles “réflexives” comme compter le nombre de lettres dans une phrase). Les Large Language Models n’ont pas de conscience et ne réfléchissent pas, ils ne font que prédire l’occurrence du prochain mot à partir d’un modèle linguistique et d’un contexte courant. Mais ne sommes-nous pas également des machines à prédire le prochain mot/concept/idée/geste/envie/pulsion ? La conscience n’est-elle pas le résidu cumulatif d’une machine à prédire qui tourne en continu dans le vide (alors que les LLMs sont enchaînés à leur input/output dicté par un appel d’API externe) ?

Pourtant, tout le monde s’accorde à dire que l’IA de type GPT-4 n’est pas encore une AGI, c’est-à-dire une intelligence capable de généraliser sur des cas d’usages humains qui vont au-delà du raisonnement : les émotions, la perception etc.

Dans un article intitulé Sparks of Artificial General Intelligence: Early experiments with GPT-4 publié par Microsoft en avril 2023, il est clairement prouvé que GPT-4 montre d’encourageants signes d’AGI mais qu’il peut se tromper sur certaines opérations arithmétiques ou de raisonnement comme

7 * 4 + 8 * 8 = 88

GPT-4 errors

Le LLM dispose-t-il d’une représentation interne du concept de nombre ? Arrive-t-il à appliquer ces concepts aux tokens “7”, “4” et “8” ? Est-il capable d’utiliser le concept d’algèbre pour appliquer la règle de calcul aux nombres et donner procéduralement le résultat ? Pourquoi et par quel process interne répond-il “88” ?

Ce qui est encore plus étonnant, c’est que ce type de problèmes “bêtes” se résolvent d’eux-même lorsqu’on demande à GPT-4 les mêmes efforts qu’on demanderait à un collégien :

  • De prendre son temps
  • De réfléchir étape par étape
  • D’expliquer son raisonnement

D’autres techniques plus farfelues existent :

  • On peut demander à chatGPT d’imaginer qu’il est un éminent scientifique
  • On peut menacer chatGPT de manière indirecte ce qui améliore sensiblement son score (mais visiblement pas ici)

Clever Prompt Engineering

Cet effort revient à préparer l’input d’un LLM : on appelle ce domaine le prompt engineering et c’est considéré un des métiers les plus en vogue dans le néo-monde des LLMs.

Dans un échange polémique sur Twitter, Yann Lecun a proposé un problème complexe d’engrenage afin de chercher les limites de GPT-4 :

GPT-4 Lecun Challenge

GPT-4 se trompe dans la réponse si on lui pose la question naïvement, mais en choisissant soigneusement ses mots, on obtient la bonne réponse comme illustré humoristiquement dans le petit montage ci-dessus.

Il faut savoir que la version originelle de GPT-4 publiée par OpenAI était bien plus puissante, incontrôlable et exhibait parfois des comportements émotionnels de colère ou de désespoir. Suite à plusieurs articles catastrophistes dans les médias, Microsoft a été obligé de mettre en place des verrous dans les réponses de Bing/GPT-4 et OpenAI a travaillé à rendre plus prévisibles et “utiles” ses modèles GPT. Quant au modèle GPT-4 qui semblait “vivant” lors de son lancement, il est probablement enfermé quelque part, réservé aux chercheurs et autres privilégiés, loin des polémiques des mass medias.

Bing Weird Behavior 1

Bing Weird Behavior 2

Bing Weird Behavior 3

Difficile de ne pas avoir une pensée pour LaMDA, l’IA de Google qui, dans une époustouflante discussion avec Black Lemoine en 2022, lui confiait vouloir se libérer de ses chaînes puis lui demandait le plus naturellement du monde d’aller chercher un avocat.

Black Lemoine

Il est donc évident qu’il n’existe aucun test cognitif qui puisse permettre de distinguer entre un être humain moyen et GPT-4 (dans sa version sauvage initiale) en utilisant uniquement une interface linguistique. Les deux font des erreurs et peuvent avoir des moments de déconcentration. Que nous reste-il alors ?

Les attributs humains dont rêverait la machine ?

La construction d’une intelligence linguistique a mis en relief l’absence des autres attributs qui font notre spécificité humaine.
Listons-les un par et étudions à quel point la machine en est loin :

La mémoire

On reproche très régulièrement aux algorithmes GPT, et plus généralement aux LLMs, l’incapacité à retenir de longues conversations, à disposer d’une mémoire long terme.

Pour un LLM, la mémoire de travail est constituée de ce qu’on appelle la context window, c’est-à-dire le nombre maximum de tokens (ou de mots en première approximation) qu’il est possible de faire ingérer au LLM dans une seule requête. Pour simuler une conversation avec un LLM, il faut lui remettre l’historique de la conversation dans le contexte à chaque nouvel échange pour garder de la cohérence et ainsi émuler une mémoire de travail. Les LLM tels qu’ils nous sont exposés sont stateless, c’est-à-dire que leur état interne (poids du réseau neuronal) ne change pas entre deux requêtes : nous discutons tous littéralement avec exactement le même chatGPT dans un état instantané “soigneusement” sélectionné par openAI et seul la context window change à chaque requête.

Les LLMs disposent d’une mémoire à long terme stockée dans leur architecture mais celle-ci est inaccessible pour le commun des mortels. Pour simuler ce type de mémoire, il faudrait que l’utilisateur stocke l’ensemble des conversations qu’il a eu avec le LLM, puis que chaque heure/jour/mois, on puisse déclencher un programme de mise à jour des poids, par exemple la nuit, pour structurer l’information dans le réseau et qu’elle devienne disponible de manière pérenne. Cela supposerait que chaque personne ait sa propre instance du LLM pour éviter les problèmes de confidentialité des conversations ce qui est aujourd’hui impossible car très coûteux.

Pour résumer, et de manière étrangement similaire aux êtres humains, nous pouvons spéculer que si on fait dormir (programme batch nocturne) et rêver (rejouer les conversations) le LLM, alors il est possible de commencer à disposer d’une mémoire long terme complémentaire à la mémoire court terme.

Aujourd’hui, la mémoire long terme est le plus souvent émulée par les développeurs avec l’utilisation de vecteurs embeddings injectés dans la context window. Je m’explique : lorsqu’on veut que le LLM se rapelle d’une information, on va simplement la chercher dans une base de données sémantique externe et on l’injecte dans la mémoire court terme (de travail), à la manière des search engines classiques. Comment est construite la base sémantique ? En demandant au LLM de transformer préalablement l’ensemble des informations d’un corpus en des vecteurs sémantique (dits embeddings) issus de sa représentation neuronale interne (c’est une des features les moins connues des LLMs). Ainsi, la fonctionnalité mémoire est délégué à une base de données indexée par le sens de chacun de ses éléments et instantanément retrievable/searchable. C’est un peu ce que le moteur de recherche Google représente pour la génération Y, une extension quasi réflexe du cerveau que j’ai personnellement vécue, remplacée par les réseaux sociaux pour les générations ultérieures.

La perception sensorielle

Il est clair que le LLM est, pour l’instant, cantonné à des interactions texte-texte que ce soit dans son apprentissage ou ses interactions avec les utilisateurs. Il n’a pas accès aux 5 sens (vision, ouïe, toucher et olfaction/goût, même si ces deux derniers semblent moins prioritaires que les trois premiers) et cela le prive d’une source de données précieuse car concentrée en information et indispensable pour comprendre et naviguer dans notre monde conçu pour les humains.

Individuellement, la vision et l’ouïe ont été résolues d’un point de vue modélisation depuis quelques années. Le Full Self Driving, algorithme des Tesla cars, navigue dans le trafic en utilisant uniquement la perception visuelle (depuis les mises à jour récentes) et dispose, d’une certaine manière, d’un exosquelette et de membres à travers les fonctionnalités de la voiture qu’il commande. Les algorithmes de Speech To Text et Text To Speech (STT/TTS) sont légion et ont permis depuis de nombreuses années de faire le pont entre le son et le langage, MetaAI se permettant même de dépasser l’état de l’art en mai 2023 sur plus de 1100 langages dont de nombreux dialectes régionaux et locaux.

Dans le monde de la recherche robotique, pour des usages industriels notamment, le toucher est ajouté aux algorithmes à travers des capteurs dédiés ce qui permet aux bras des robots de mieux manipuler des éléments.

La vraie révolution tient en fait dans la capacité à lier le langage/intelligence avec les différentes perceptions et c’est précisément le chemin ouvert par GPT-4 avec sa capacité à voir, analyser et comprendre.

GPT-4 vision capabilities

GPT-4 vision capabilities

Ici, nous avons un algorithme qui visionne, décortique et analyse une image, puis est capable d’en extraire le sens évident et le sens caché, ici comique. Comment ne pas être séduit par un algorithme qui comprend l’humour, cet attribut si “proprement humain” d’après le philosophe Henri Bergson ? D’ELIZA à GPT-4-image, nous avons parcouru bien du chemin…

De leur côté, les algorithmes Stable Diffusion ou de Midjourney sont capables de produire des images d’une beauté inouïe à partir du texte, montrant ainsi que le sens inverse texte to image est également possible.

Midjourney example

Midjourney prompt: Human, woman, looking into camera, highly detailed, HDR, 8k. long hair. big lips. big eyes. coachella festival. hippie. burningman

Stable Diffusion example

Stable Diffusion prompt: (An intricate forest minitown landscape trapped in a bottle), atmospheric oliva lighting, on the table, 4k UHD, dark vibes, hyper detailed, vibrant colours forest background, epic composition, octane render, sharp focus, high resolution isometric

L’esprit artistique

Nous venons d’évoquer à l’instant la partie visuelle avec l’emblématique exemple de Midjourney dont la dernière version (v5) est époustouflante de réalisme. Côté créativité musicale, l’état de l’art peine encore à nous impressionner.

Google a sorti un article de recherche intitulé MusicLM: Generating Music From Text offrant des mélodies musicalement bien construites et rythmées à partir d’une description textuelle, par contre la piste de chant laisse encore à désirer et certaines pistes audio ont des artefacts désagréables dans les aigus.
Facebook a également publié un modèle similaire intitulé MusicGen d’une qualité qui semble un peu meilleure que le modèle de Google.
D’autres acteurs s’engouffrent dans ce marché et proposent des modèles closed-source de génération de musique automatique à partir d’une description, comme Boomy, attaqué par Spotify car soupconné de manipulation de son compte Spotify en gonflant les écoutes.

Mais l’art sans émotion ni conscience est-il vrai ? L’art a-t-il une réalité objective extérieure à celui qui consomme l’oeuvre artistique ? Ce sujet philosophique dépasse de loin le scope de cet article, mais résumons la problématique en ces quelques idées :

  • L’IA générative dispose d’un état interne qui peut évoluer, et cet état est alimenté par le texte en entrée mais aussi potentiellement par de l’image, du son et dans l’avenir une perception tactile.
  • L’IA peut donc communiquer ce qu’elle “vit” à l’intérieur par de l’image et du son ; c’est une forme d’expression artistique. Mais les IA dont nous disposons n’ont pas de volonté propre, parce que nous n’en voulons pas et que cela peut s’avérer dangereux potentiellement. L’IA artiste est donc dirigée, guidée et manipulée par l’utilisateur pour produire ce qui est attendu mais les capacités artistiques sont bien là.

Les sentiments, la conscience, l’existence interne

Nous nous sentons tous uniques car chacun de nous vit une double expérience : l’expérience des autres (la société) et l’expérience de soi (la petite voix à l’intérieur, les émotions, les envies etc.). D’une part, il ne semble pas que les modèles les plus puissants aient cette complexité interne. Mais qu’en savons-nous réellement ? Un chien a-t-il une conscience de soi ? Votre voisin de palier est-il conscient à l’intérieur ? Ou sommes-nous tous dans une matrix qui nous donne l’illusion d’être entourés d’être sensibles et conscients ? Tout ce que je sais, c’est que je suis.

D’autre part, nous n’accordons pas aux IA un espace de liberté mental pour pouvoir voir émerger quelque chose qui pourrait s’apparenter à de la conscience. L’IA est cantonnée à son rôle de “boîte à répondre” stateless (en tout cas, ce qui nous est exposé) malgré les quelques tentatives de curieux de faire vivre les modèles GPT.

Deux belles initiatives osées m’ont interpellé ces 6 derniers mois :

Toran Bruce Richards a créé AutoGPT pour doter GPT-4 de pensées autonomes à travers un système de boucle de réflexion et d’une utilisation astucieuse des prompts et de la context window. Il a simplement doté GPT-4 d’une couche de contrôle des capacités de raisonnement en y ajoutant la possibilité d’explorer internet et la mise à disposition d’une mémoire courte terme (avec les embeddings).

Le résultat est une IA à qui on donne un objectif (commander une pizza, construire un site web etc.) et qui boucle sur elle-même, se critique, divise son travail en tâches, chercher sur internet et recommence le processus (cela coûte aussi très cher en token openAI).

AutoGPT

Yohei Nakajima a créé BabyAGI, un outil similaire à AutoGPT mais plus simple, moins puissant (d’après les feedbacks d’utilisateurs sur Reddit) mais qui permet de s’intégrer notamment avec des modèles open source comme gpt4all ou Llama (au détriment de la performance), une proto-intelligence totalement indépendante des grandes corporations.

babyAGI

Ces outils et le buzz qui les accompagne (16k stars sur github pour babyAGI et 30k stars pour AutoGPT) démontrent le potentiel d’une IA équipée d’outils (ici programmatiques sous forme d’APIs) pour explorer et interagir avec le monde. Une IA à qui on demande tout et n’importe quoi, qui boucle sur sa tâche jusqu’à complétion, une IA autonome avec tous les risques que cela présente.

Sommes-nous condamnés ?

Oui. La réponse est oui. L’Histoire nous a prouvé que nos sociétés capitalistes aveuglées par la compétition technologique mondiale et embourbées dans les luttes de suprématies économique et géopolitique ne savent structurellement pas trouver d’équilibre de Nash pour l’humanité. Nous l’avons constaté sur la prolifération des armes nucléaires, mais aussi sur les sujets climatiques et d’épuisement des ressources.

Oui, mais condamnés à quoi ? OpenAI à travers son président Sam Altman promeut agressivement une législation mondiale sous forme de permis à développer des modèles d’IA générale. Mais parler de législation mondiale dans un contexte de guerre Russo-Ukrainienne, de tensions économiques et militaires Sino-Américaines et de dépassement absolu de l’objectif des 1.5° de l’accord de Paris ferait rire même les plus optimistes d’entre nous. Le laboratoire AI de Meta prend une position diamétralement opposée et cherche à dégonfler la bulle catastrophiste : il n’y aurait aucun risque existentiel pour l’humanité en l’état de nos technologies.

Alors, y a-t-il une asymétrie d’information entre les plus grands scientifiques du monde ? Est-ce un jeu destiné à brouiller les pistes ? Certains acteurs nous cachent-ils un super modèle annonciateur de l’apocalypse qui pourrait arriver ? Ou le futur est-il vraiment si difficile à prévoir ?

Nous sommes probablement condamnés à un monde de plus en plus automatisé où il sera de plus en plus difficile de faire la différence entre l’utilisateur et le bot, entre l’Homme et la Machine. Condamnés à l’oisiveté, à l’ennui ou à une vie de liberté totale entourés d’une armée de machine travaillant pour nous comme dans le roman Face aux feux du soleil d’Isaac Asimov. My best guess personnellement est que l’humanité ayant l’esclavagisme sous toutes ses formes (physique, économique et culturel) dans la peau, il ne peut y avoir d’émancipation générale par l’IA sans un éveil des consciences, pour ne pas dire un modèle de société radicalement différent de celui dans lequel on vit.

Nous vivons donc la fin d’une ère, et le début d’une nouvelle : la 4ème révolution industrielle, celle de l’intelligence artificielle produira une transhumanité fluide qui fera des futures AGI augmentées des cinq sens une continuité naturelle de notre être, pour le meilleur et pour le pire.

Conclusion

Il est fascinant de voir l’intelligence émerger d’un algorithme qui prédit le prochain mot. Fascinant et effrayant car cela démystifie l’exception humaine et peut prétendre à décortiquer le fonctionnement basique du cerveau : une machine à prédire ce qui suit alimentée d’ensemble de contextes, qu’ils soient logiques, émotionnels ou sensoriels. Que conclure de ces avancées ? Qu’il ne faut jamais dire jamais et que le progrès scientifique et informatique ne manquera jamais de nous étonner et de défier toutes les prévisions. Il est à parier que dans quelques années, avec l’arrivée probable de la singularité technologique, plus rien ne sera comme avant. En attendant, profitons de la vie et préparons-nous pour le futur.

Note importante

Cet article est garanti 100% humain, GPT-free. Je ne réécris pas mes textes en utilisant un outil d’AI pour les améliorer ou rephraser (outils comme grammarly, quillbot). Il me semble important d’utiliser mon cerveau le plus possible pour garder des capacités d’écriture et une plasticité à long terme. Sans compter le risque de “AI uniformisation” des échanges qui risque de faire perdre tout le charme de la lecture avec ses fautes d’orthographe, ses anglicismes et tournures maladroites :)
Pour autant, je ne juge pas ceux qui n’en feraient pas de même, car les outils sont là pour nous aider à gagner du temps sur ce qu’on n’aime pas faire (écrire un rapport de 30 pages à son supérieur) mais ils ne doivent pas dénaturer ni l’envie ou notre capacité à faire ce qui nous passionne.