Que vont devenir nos enfants (dans un monde post-AGI) ?
Non, sérieusement, que vont vraiment devenir nos enfants dans un monde où il semblerait que le travail intellectuel soit en passe de devenir quasi obsolète ?
C’est une question qui m’a été posée très récemment à plus reprises et qui a déclenché une série de réflexions sur l’avenir du travail en col blanc pour les jeunes et surtout très jeunes (mes enfants ont moins d’un an).
Qu’est ce qui pourrait encore avoir de la valeur dans 20 ans en termes de travail ? Quelles compétences faut-il acquérir dès maintenant pour se préparer à ce marché du travail ? Y aura-t-il assez de travail pour tout le monde ou serons-nous déjà dans un monde où seuls quelques privilégiés (probablement des scientifiques) contribueront à la vie économique en tant que producteur et non pas seulement en consommateurs ?
Toutes ces questions sont difficiles car supposent de se projeter en essayant d’extrapoler une courbe exponentielle (c’est le biais de l’explosion exponentielle) tout en prédisant la timeline de chute de cette courbe (stagnation du progrès, manque de ressources, guerres mondiales, autre évènement disrupteur…)
La course contre l’intelligence humaine
Il n’y a absolument de plus fascinant que de voir la course aux benchmarks LLMs s’activer dans les milieux universitaires et professionnels pour continuer à mesurer de manière précise les avancées des Large Language Models. Fascinant car les benchmarks sont de plus en plus complexes et difficiles à comprendre pour un être humain normal, mais également incroyablement excitant et terrifiant car les LLMs gagnent inlassablement du terrain sur tous ces benchmarks.
Il est loin le temps où les réseaux sociaux se réjouissaient d’avoir une intelligence artificielle capable de passer le barreau américain (GPT4) - c’était la bonne époque - car aujourd’hui, les IA génératives ont beaucoup évolué et une compétition s’est enclenchée où chaque incrément de capacité cognitive est devenu incroyablement précieux (permettant entre autres de lever de l’argent).
Nous avons aujourd’hui quatre grands types de benchmarks (je les vois comme ça) :
- Les benchmarks généralistes qui évaluent la réponse à des questions à la manière d’un examen pour étudiant, le LLM ne doit pas se tromper, puiser dans son savoir et surtout ne pas halluciner
- Les benchmarks de type raisonnement qui évaluent la capacité à conduire une réflexion soutenue dans un objectif précis
- Les benchmarks de type recherche qui nécessitent d’aller chercher de l’information, de la consolider et de répondre à un problème extrêmement précis
- Les benchmarks économiques, mesurant très clairement la capacité d’un LLM à s’intégrer dans une chaîne de valeur sur le marché du travail
Prenons un exemple iconique de chaque type :
- Le benchmark GPQA (448 questions de doctorants experts dans leur domaine en biologie, chimie et physique, questions dont les réponses ne sont pas accessibles sur Google) est un bel exemple de test complexe où même les meilleurs experts ne dépassent pas 60-70% de bonnes réponses au total.
Sur GPQA (et sa version diamond encore plus difficile), nous sommes passés d’un score de 28% avec chatGPT (gpt3.5) à 88% avec OpenAI o3 (actuellement leader d’à peu près tous les benchmarks). OpenAI o3 n’étant pas disponible au public, notons que o3-mini (high) qui, lui, est disponible et incroyablement peu cher a atteint le score 80% ce qui est toujours 10 à 20 points de plus que la moyenne des experts.
- Pour tout ce qui est raisonnement, impossible de ne pas citer le benchmark FrontierMath validé par Terence Tao himself disant qu’il faudrait plusieurs années avant qu’il ne soit craqué. FrontierMath est constitué de 200 questions mathématiques très pointues, inconnues du grand public (et des moteurs de recherche), impossible à deviner par hasard, et surtout non référencés dans la littérature scientifique. Le seul moyen d’arriver à la réponse est de faire ce que tout bon mathématicien ferait : penser, conceptualiser, itérer et avancer.
Pour le plaisir des neurones, voici un exemple de question dont la simple compréhension de l’énoncé mériterait une médaille.
Sur FrontierMath, nous étions jusqu’à très récemment en dessous de 2% sur les meilleurs modèles de la place. Là encore, OpenAI o3-mini et o3 ont permis de casser le plafond de verre pour atteindre le 20-25% sur ce benchmark (OpenAI étant un des investisseurs dans l’association qui a créé le benchmark, on peut toutefois se poser des questions).
Un autre benchmark notable de raisonnement (de type algorithmique) est le Competition Codeforces. En quelques mots, c’est une sorte d’olympiade informatique avec des problèmes algorithmiques complexes où des dizaines de milliers d’ingénieurs informaticiens se battent en duel avec à la clé un score et surtout un classement mondial. La beauté de ce benchmark est qu’il permet de situer les performances des LLMs dans un environnement compétitif adversarial et pas seulement collégial expert.
Dans ce benchmark, non seulement OpenAI o3 est dans le top 175 des meilleurs codeurs algorithmiques du monde, mais Sam Altman a récemment déclaré qu’un modèle interne non publié était 50ème mondial et qu’ils pensent pouvoir attendre le podium d’ici la fin de l’année. Nous pouvons donc affirmer que l’IA est meilleure “informaticienne” que quasiment tous les humains, même si on peut modérer cette assertion en disant que l’informatique va au-delà de l’algorithmie pure.
- Pour les benchmarks de recherche, il n’y a rien de mieux que HLE (Humanity Last Exam), un examen de 2700 questions extrêmement pointues et dont les réponses ne peuvent être obtenues qu’à travers des capacités de raisonnement avancées et une connaissance très précise des différents domaines du test. C’est typiquement ce que fait un chercheur : produire une réflexion profonde sur un sujet pointu en s’appuyant sur le travail itératif de ses pairs (les articles de recherche publiés) tout en gardant du recul.
Je ne résiste pas au plaisir de montrer ici deux questions pour donner une idée de la difficulté de ce type de benchmark.
Alors que tous les LLMs avant o3 étaient à moins de 10% de score global, OpenAI o3-mini (high) a atteint 13% et l’outil agentique DeepResearch de OpenAI basé sur o3 (la version non publique) est à 27% de score sur ce benchmark. Just wow!
- Enfin, mon benchmark préféré, celui qui remplace tout simplement 50% de mon travail, c’est le SWE-Lancer - Software Engineer Freelance - ensemble de tâches informatiques du monde réel (la plateforme de freelancing Upwork) dont la valeur totale sur le marché est de 1 million de dollars. L’objectif du LLM informatique ici est de produire des réponses correctes et de suffisamment bonne qualité afin d’être objectivement payé par son “client”. On mesure alors la performance du LLM par le total des gains en dollar.
L’objectif fondamental est de projeter l’IA dans le monde économique et de mesurer une performance pratique (quoi de mieux que l’argent). Fait notable (et qui ne surprendra pas les informaticiens qui testent régulièrement des outils d’IA), c’est la société Anthropic (avec Sonnet 3.5) et non OpenAI qui lead ce benchmark avec $400k gagnés sur le million disponible.
Oui, mais quel impact sur le monde réel ?
Tous ces benchmarks théoriques ne reflètent évidemment aucunement la réalité du travail que chacun d’entre nous fait dans son quotidien. Nous ne sommes, pour la plus grande majorité, pas payés à résoudre des énigmes mathématiques où à répondre à des questions de biologie (même si le SWE-Lancer correspond effectivement à une activité économique réelle).
Ces benchmarks servent à mesurer un axe très particulier qui est la capacité à craquer un sujet comme nous le ferions à l’école ou à l’université. Notre travail au quotidien est fait de : (en prenant l’exemple de ce que je faisais quand j’étais directeur du Datalab au CIH Bank)
- Faire de la veille technologique sur le Big Data et la datascience
- Lire mes mails
- Dresser et conduire une stratégie technique et métier sur la data dans la Banque
- Maîtriser la situation interpersonnelle dans la banque (hiérarchie, relations, intérêts)
- Répondre à mes mails en suivant la stratégie Data et en équilibrant ma compréhension du contexte interpersonnel
- Suivre et guider une équipe dans les rituels agiles (daily et weekly)
- Me déplacer dans les bureaux de responsables, parfois dans les agences
- Développer avec les équipes le code du Datalake
- Faire la revue et l’acceptation du code du Datalake développé par l’équipe
- Prendre du recul sur ce qui a été réalisé et ajuster la stratégie
- Evaluer l’équipe et ma propre contribution
Dans cette liste de tâches, seuls quelques éléments peuvent être gérés par les LLMs. Le développement et la revue de code bien sûr, mais également la veille technologique et la stratégie technico-fonctionnelle data. Bien que cela constituait probablement 30%-40% de mon temps en tant que manager, il reste une proportion non négligeable qui est ce que j’appelle le “liant humain”. La capacité à dresser des traits entre systèmes technico-sociaux pour créer de la valeur.
De manière plus générique, notons :
- La capacité à interagir avec plusieurs systèmes informationnels à travers le clavier, la souris et l’écran (lire ses mails et y répondre, rentrer dans une application de centralisation des achats, consulter un intranet, saisir des données sur une interface etc.)
- La capacité à interagir avec des systèmes physiques (être debout dans la salle de réunion avec l’équipe le matin à 9h30, prendre son combiné téléphone cisco, aller dans le bureau d’un collègue etc.)
- La capacité à maintenir un écosystème humain pertinent (discuter pendant les pauses-café, aller à la cantine, échanger sur un groupe whatsapp de manière informelle etc.)
Bien qu’a priori capable d’avoir ce type d’interaction (et encore, ça se discute pour l’écosystème humain), l’IA que nous avons aujourd’hui est purement digitale et ne s’interface pas naturellement avec notre legacy du monde réel.
Nous avons des outils qui commencent à adresser l’interaction avec les systèmes informatiques (Browser-use, Computer use de Anthropic, Runner de HCompany, Operator de OpenAI) mais ceux-ci restent chers et limités en général au navigateur internet car le web est par construction très structuré et plutôt simple d’interaction.
Parallèlement à l’innovation scientifique pure, nous avons vu ces 6 derniers mois l’émergence du mode agentique des LLMs, c’est-à-dire leur capacité à former des systèmes complexes pour émuler des tâches multi-étapes, émuler des équipes voire émuler des entreprises. L’agentique, c’est le fait de faire collaborer ensemble plusieurs agents en leur donnant des attributions, outils et objectifs propres.
Dans l’exemple qui suit, une entreprise de traduction de livre est reproduite avec des agents ayant chacun des caractéristiques spécifiques :
- Le CEO est un agent LLM qui analyse les besoins clients (spécifications) et décide d’assembler la bonne team pour ce travail (quels profils, combien de personnes sur chaque profil et le budget de travail - pendant combien de temps peuvent-ils travailler)
- Le senior editor est l’agent LLM chargé de donner des guidelines aux équipes et de superviser le travail avant de le remettre au CEO
- Le junior editor est l’agent LLM chargé de la supervision opérationnelle du travail des équipes de traduction, il maintient la vision du senior editor mais est amené à faire un travail fréquent sur les livrables
- Le translator est l’agent LLM chargé de faire le travail de base, c’est-à-dire la traduction de blocs de texte tout en gardant en tête le contexte global du livre
- Le localization specialist est l’agent LLM chargé d’adapter la traduction aux spécificités de la langue dans des régions particulières avec dialecte (en Inde ou en Chine, c’est indispensable)
- Le proofreader est l’agent LLM chargé de faire la relecture et l’analyse grammaticale, syntaxique, orthographique etc. du texte
Ces 6 agents sont instanciés une ou plusieurs fois selon le besoin et le volume de travail. Le choix du modèle (puissance cognitive du LLM) dépend des besoins en termes de rapidité du LLM mais également de l’équation économique (la simple réponse d’un modèle LLM peut aller de $0,01 à $1000 avec o3). On leur donne à disposition si nécessaire l’accès à des outils comme le web ou l’utilisation d’un dictionnaire et on les laisse communiquer entre eux selon un workflow encadré mais non déterministe (le proofreader ne va jamais parler au CEO, mais le junior editor et le senior editor peuvent et doivent échanger régulièrement).
Nous avons ainsi émulé une entreprise de traduction d’ouvrage et le résultat est censé remplacer l’être humain sur des tâches de plus en plus complexes.
Bon, et nos enfants alors ?
A travers leur puissance cognitive, leurs capacités naissantes d’interaction avec un ordinateur et la possibilité de team-up en mode agentique, les LLMs sont amenés à être de plus en plus génériques et envahissants.
S’ils ne sont pas capables de nous remplacer aujourd’hui, il n’y a pour moi fondamentalement plus aucune barrière technique ou scientifique pour envahir l’espace corporate et doucement disrupter le travail. Entreront en jeu quelques paramètres pratiques importants :
- Le coût des LLMs doit baisser afin de devenir compétitif avec nos salaires (un LLM puissant en mode agentique équipe de l’usage du navigateur peut monter à plusieurs centaines de dollars par heure)
- La vitesse de réponse des LLMs est cruciale surtout lorsque ceux-ci sont intégrés dans une boucle de feedback humaine (pour contrôler et décider avant action finale). Les LLMs puissants restent globalement lents, par exemple gpt4.5 ne produit qu’une dizaine de tokens par seconde aujourd’hui
- La souveraineté des LLMs est une sujet sensible car l’entreprise qui vous vend sa stack agentique est encore plus à l’intérieur de votre business que ne l’est Microsoft Office 365 ou Oracle. Et nous aurons besoin de solutions marocaines pour répondre à ces enjeux
Pour étudier l’impact sur le monde du travail, une étude très fournie du World Economic Forum de 2023 (c’est déjà tellement ancien et désuet) se prononce sur la disparition des métiers.
On retrouve notamment les métiers administratifs, de comptabilité et de service client. On peut bien sûr critiquer cette liste à souhait mais il est à parier que lorsque votre travail implique peu de créativité, beaucoup de digital et peu d’interactions complexes, les LLMs agentic deviendront un sérieux concurrent.
Dans l’informatique par exemple, il me semble évident que le marché du travail va se rétrécir drastiquement au fur et à mesure de la maturité des outils IA software agentic. J’estime avoir la productivité de 4-5 personnes aujourd’hui par rapport à il y a 10 ans quand je faisais mon retour au Maroc. Ces 4 personnes que je n’ai pas embauchées aujourd’hui doivent aller chercher un travail ailleurs. A titre d’illustration, constatons que le nombre d’annonces de recrutement informatique aux US est au plus bas, frôlant le niveau de Covid (l’explication est vraisemblablement multi-factorielle).
En tout cas, mes enfants ne seront clairement pas informaticiens de métier, mais de même que personne n’est recruté car il sait lire et écrire, ce sera la même chose pour l’algorithmie dans le futur. Une compétence indispensable qui booste l’élasticité du cerveau et les capacités d’ingénierie pour d’autres métiers à inventer.
L’étape intermédiaire (5-10 ans) sera l’avènement d’une collaboration humain-machine accrue mais laissera derrière elle un champ de ruine pour tous ceux qui ne se sont pas réinventés. Il y a fort à croire que les qualités du futur seront centrées autour de la puissance de la relation humaine :
- Capacité à susciter et garder la confiance (métier correspondant leader d’opinion, politicien)
- Capacité à faire sincère preuve d’empathie (métier correspondant coach, “amitié”)
- Capacité à construire un lien humain profond et pérenne (métier correspondant psychologue, médecin)
Au fur et à mesure que les robots humanoïdes arriveront, ces dernières barrières s’effaceront également.
Les métiers du futur
J’aimerais parier sur la montée en puissance des métiers de souveraineté humaine, ceux pour lesquels la société ne pourra jamais accepter une machine. Je pense notamment aux métiers de la politique et de l’administration (décider de notre futur en tant que société), aux métiers de la justice (au sens jugement des hommes entre eux), aux métiers où le contact humain est partie intégrante du travail (coaching, médecine de famille, psychologie), aux métier de l’éthique (qui est contenue dans la souveraineté humaine).
Quels sont du coup les skills qu’il faudra maîtriser en préparation de ce nouveau monde (>20 ans) ? L’étude du WEF y répond avec graphique qui personnellement me parle beaucoup :
Dans l’avenir, il faudra apprendre à nos enfants des meta-skills :
- La résilience, la flexibilité et l’agilité : être capable de rapidement analyser une situation et de s’y adapter
- Le creative thinking : être capable de venir avec des solutions originales pensées différemment
- Le leadership et l’influence : être capable de disposer d’une position privilégiée dans notre société
- La curiosité et l’apprentissage continu : être capable d’avoir l’énergie et la passion de toujours vouloir en savoir plus
- AI and Big Data : évidemment, il faudra créer les robots et intelligences artificielles du futur, ou du moins les comprendre et les encadrer, ce qui nécessitera tout de même des compétences à ce niveau
Nos enfants seront des super-entrepreneurs startupers, des one-person $1B company comme prédit Sam Altman dans une conférence de l’année dernière, des esprits agiles, ambitieux, éveillés dotés d’une volonté forte et claire assistés de milliers d’IA plus ou moins spécialisées autour d’eux pour changer le monde en traçant le trait d’union entre la machine et la société humaine.
Le métier alternatif à celui qui change le monde dans le quel on vit, c’est le métier qui change le futur par excellence : le chercheur, c’est-à-dire celui qui repousse les limites de ce qui est faisable, en attendant le point d’inflexion, les débuts de l’Artificial Super Intelligence. Et à ce moment-là, on en rediscutera (ou pas).
D’ici là, préparons nos enfants pour cette grande révolution !