Ce post a été initialement publié sur huffpostmaghreb.com

Un profil aussi stratégique que rare.

S’il y a bien un terme à la mode depuis quelques années dans le monde des technologies de l’information (IT), c’est bien celui de datascientist. Geek technologiste spécialisé dans l’analyse de la donnée, statisticien hors pair avec sa boule de cristal ou analyste fou capable de visualiser, comprendre et anticiper le comportement des masses, il est difficile de cerner un poste aussi multiforme et récent, mais attirant et fortement recherché par les entreprises manipulant la donnée. Les salaires aux États-Unis avoisinent ainsi les $140.000 annuels.

Les datascientists ont trois grands traits caractéristiques qui forment un mix:

Data Engineer, un informaticien capable de manipuler rapidement et avec efficience des quantités plus ou moins importantes de données. Cette manipulation combine la compréhension technique de la structure des données, la capacité de nettoyer et purifier toute information altérée ou inutilisable et l’aptitude à agréger et concentrer des volumes important de données en information.
Machine Learning Engineer, un statisticien dont la spécialité est de construire des modélisations d’un phénomène cible. Il jongle avec les algorithmes, sait les optimiser sans se perdre dans les espaces de paramètres et applique une méthodologie sans faille afin de tester le modèle construit sur la réalité qu’il cherche à modéliser.
Business Analyst, un expert métier qui connaît sur le bout des doigts le fonctionnement des processus en jeu. La visualisation n’a aucun secret pour lui puisqu’il sait analyser et résumer de manière percutante des idées fortes autour de problématiques complexes. Le Business Analyst donne ainsi de la valeur métier aux études statistiques.

Ces trois rôles sont complémentaires puisque la donnée suit un pipeline de transformation.

Le Data Engineer apporte un outillage, une expertise technologique et une première transposition métier de données techniques. Le Machine Learning Engineer est chargé d’utiliser cette première passe de raffinage de la donnée pour alimenter ses algorithmes et trouver une modélisation adéquate qui correspond à la problématique à résoudre. Le Machine Learning Engineer travaille avec le Business Analyst car le rôle de ce dernier est de transposer dans le monde réel (avec ses contraintes) les modélisations produites.

On dit d’une personne ayant pleinement les 3 capacités qu’elle est un super datascientist… ou encore un mouton à 5 pattes.

Cette présentation du datascientist étant plutôt cartésienne, en voici une définition plus imagée.

Notre monde est fondamentalement et extrêmement bruité. Comprenez par là que les interactions que nous avons avec nos semblables ainsi qu’avec les machines produisent une quantité de données phénoménale, souvent non naturellement structurée (voix, écriture manuscrite, gestuelle…) et surtout très peu concentrée en information utile. Heureusement, notre cerveau, n’en retient qu’une très faible partie: celle absolument nécessaire pour vivre en société.

La donnée à laquelle nous avons de plus en plus à faire est donc fortement redondante.

Prenons pour exemple une vidéo de caméra de surveillance de bonne qualité d’une longueur d’une heure. Sa taille informatique est d’à peu près 1go (l’équivalent d’un CD et demi). Supposons que son contenu soit constitué d’une rue piétonne peu fréquentée. Des personnes se promènent le matin, une voiture passe en fin de journée, mais les images se suivent et se ressemblent.

En terme de donnée physiquement stockée, la vidéo contient la position de chaque pixel du champs de la caméra à tout instant (l’équivalent en taille de 1go -1 milliard d’octets- ici en tenant compte de l’effet de la compression). Mais en terme d’information “réellement utile”, la vidéo se résume à quelques dizaines d’octets seulement:

Homme âgé marche à 9h14
Enfant court, s’arrête, rebrousse chemin à 9h45
Chien assis toute la journée sous une terrasse
Voiture qui se gare à 11h20
Pluie fine entre 14h01 et 16h08

Bien évidemment, tout dépend de ce qu’on entend par information utile. Peut-être a-t-on besoin de la position de toutes les gouttes de pluie à 10h12, auquel cas la vidéo complète est nécessaire. Mais généralement, ce n’est pas le cas et la majorité de l’information est superflue.

De la même manière, un client bancaire se caractérise par un très grand nombre d’interactions qu’il a avec la banque et d’informations qu’il lui a confiées. Le client est ce qu’il a déclaré à son conseiller: par exemple étudiant, né en 1990, sans enfant, vivant à Mohammedia. Le client est aussi ce qu’il fait: il utilise sa carte pour un retrait tous les 3 jours, a envoyé 2 réclamations dans les 6 derniers mois, paye sa facture en ligne… et des milliers d’autres variables. Mais fondamentalement, le client peut par exemple être résumé en 4 axes:

Jeune dynamique
Cadre ou Fonctionnaire,
Utilisateur de carte
Consommateur de réseaux sociaux

La donnée caractérisant le client a été modélisée par le datascientist ce qui donne ces 4 axes. Elle est ainsi plus facile à manipuler pour mieux comprendre le comportement global des clients.

Passer d’une donnée abondamment riche à une information chirurgicalement utile, c’est ce qu’on appelle dans un jargon mathématique une réduction de la dimension. Et c’est précisément le travail du datascientist: trouver un moyen de réduire et compresser les nombreuses dimensions de la vie de la manière la plus rapide et exacte possible.

Pour pouvoir comprendre, analyser et prédire ce qui se passe dans notre monde, nous avons besoin de concentrer l’information. C’est ce que fait en permanence notre cerveau lorsqu’il est submergé d’informations et dont il ne retient que quelques concepts clés.

De la même manière, le datascientist observe avec rigueur un monde complexe et le résume avec ses modélisations. Il crée un pont entre la réalité à travers une vision plus simple avec ses clés de compréhension.

Au CIH Bank, nous disposons du Datalab, entité dédiée à l’analyse de la donnée. Cette entité est gérée par des ingénieurs dont les spécialisations sont techniques, statistiques et métiers. Chacun a ses forces et ses faiblesses en fonction de son parcours et de ses précédentes expériences, mais nous encourageons vivement les collaborateurs qui s’engagent sur cette voie dite de la cinquième patte. Ainsi, la formation continue et la curation de contenu (recherche et partage de contenu intéressant sur le web) sont promus au rang de principe fondamental pour progresser rapidement. Nous pensons que le cheminement pour devenir datascientist est riche en enseignement et en maturité, car il englobe des métiers et des technologies différentes. Même si la cinquième patte reste un but lointain, prendre le chemin pour devenir datascientist est un pari sur l’avenir.