S’il y a bien un sujet qui me frustre et m’attriste depuis plusieurs années, c’est l’état de l’Open Data au Maroc. Tout le monde espérait un vrai portail marocain complet pour l’Open Data depuis la sacralisation du droit d’accès à l’information publique par la nouvelle constitution de 2011. Aujourd’hui, nous tous, professionnels de la data (datascientist, data analyst, business analyst…), journalistes engagés (grand reporter, envoyé spécial, chroniqueur…), entreprises privées (dans l’immobilier, le marketing, le secteur financier…), administrations à la recherche d’efficience des actions publiques, start-up en quête d’un nouveau marché ou simples citoyens curieux, attendons avidement que l’Etat libère ses propres données (ainsi que celles du privé dans un cadre contrôlé et équitable), les structure selon les meilleures pratiques et les distribue aux acteurs sérieux et responsables pour le développement du pays.

Que nenni ! Alors que le Maroc grouille d’énergie pour apporter transparence, prospérité et justice à la nation, il semblerait que nous soyons encore en retard par rapport à l’avancée fulgurante de l’Open Data dans les autres pays. Tentons ensemble d’analyser tout ce qui ne va pas dans l’Open Data avec un regard critique mais optimiste sur l’avenir.

Une définition de l’Open Data en 30 secondes

L’Open Data est un concept anglo-saxon né en 2009 qui surfe sur deux thématiques en vogue : la digitalisation et la démocratisation croissantes de nos sociétés. Ces nouveaux paradigmes érigent la publication de l’information et donc l’ouverture des données comme un principe fondamental de réappropriation du pouvoir public par les forces vives citoyennes et entrepreneuriales. En synthèse, la résultante du mouvement Open Data doit être la mise à disposition régulière d’information publique (et potentiellement privée) fiable, compréhensible et intelligible à tout instant sans barrières techniques, et ce à des fins de réutilisation par de nouveaux acteurs innovants.

Pour les parties prenantes que je citais en introduction, c’est une mine d’or d’information qui se présente. L’éditeur spécialisé OpenDataSoft décrit cette opportunité dans son white paper sur le sujet avec la citation suivante :

La valeur de la donnée réside, au contraire [de son appropriation par les experts et initiés uniquement], dans ses multiples réutilisations et ses usages, par le plus grand nombre.

Les promesses théoriques de l’Open Data en 4 principes

Selon la société OpenDataSoft, la sunlight fundation et l’Agence de Développement du Digital (ADD) (illustrée ici dans le cadre d’un atelier avec la Banque Mondiale sur cette thématique en 2020), l’Open Data se caractérise notamment par les points suivants :

  • Données brutes : les données doivent avoir un niveau de granularité suffisant pour ouvrir de nouveaux usages. Une statistique devra par exemple être fournie sur le maillon le plus petit de la population dans les limites de la confidentialité des données personnelles et du risque de désanonymisation
  • Données exhaustives : cela n’a pas de sens de publier un taux d’échec scolaire par école dans seulement la moitié des régions du Maroc. De la même manière, certaines données ou statistiques clés sont parfois tout simplement absentes, rendant caduque la capacité à conduire une analyse complète. Le manque de complétude de l’information ne permet pas une réutilisation optimale
  • Données intelligibles et accessibles : le format dans lequel la donnée est exposée doit être facilement interprétable de manière digitale avec des outils standards d’analyse de données (microfilm à opposer aux formats excel/csv). La donnée est exposée sans surcouche cérémoniale (demande en 5 exemplaires légalisés puis 3 formulaires d’inscription) dans la limite bien sûr d’un minimum de gouvernance
  • Données bien gérées en termes de Data Management : il faut revenir ici aux bonnes pratiques du data management qu’on peut retrouver dans toute organisation data-driven. La donnée doit être :
    • standardisée dans son format et son contenu afin de faciliter sa manipulation
    • rafraîchie régulièrement pour disposer de données les plus à jour possible
    • qualifiée fonctionnellement et techniquement de manière à pouvoir évaluer rapidement son degré de fiabilité
    • référencée par une personne crédible experte dite responsable clairement identifiée
    • expliquée via un dictionnaire de donnée complet (dit metadata) qui décrit l’ensemble de ses attributs les plus importants de manière synthétique comme la provenance, la signification ou le format utilisé

Les données de l’Open Data doivent également être libres de droit afin de faciliter tout type d’usage (ou à minima utiliser une license permissive comme la CC-by ou l’Open Data Commons Open Database License).

Dans un contexte d’entreprise, une donnée bien traitée devient un actif stratégique. Le même principe s’applique à un Etat à la différence de la finalité qui est citoyenne et non pas systématiquement économique.

Où en est le Maroc en 2022 ?

Trêve de généralités, regardons la situation dans le pays.

En termes de positionnement dans les indicateurs mondiaux, selon le Odin Open Data Watcher, nous étions en 2015 à la 57ème place mondiale pour régresser à la 133ème et 134ème place en 2016 et 2017, puis nous avons récupéré une honorable 41ème place depuis 2018 dans ce classement sur un total de 187 pays. Le Open Data Barometer a quant à lui démontré la dégradation de notre classement puisque nous sommes passés de la 40ème place en 2013 à la 79ème place en 2016. Le Fraser institute nous plaçait à la 99ème place en 2020.

Dans le classement des Nations Unies sur l’e-gouvernement, nous sommes derrière la Tunisie à la 101ème place cette année sur 193 pays contre la 82ème en 2014.

Deux enseignements à retenir : nous avons eu des phases anormales de recul depuis que nous avons fait nos premiers pas en 2013 et nous sommes toujours dans le ventre mou des classements mondiaux malgré des directives royales claires et un dispositif institutionnel et réglementaire mis à niveau.

Qui sont les grands acteurs de l’Open Data dans le pays ?

D’autres acteurs existent sur des domaines plus spécifiques :

Ces deux derniers portails ne sont pas à proprement dit de l’Open Data car ils ont un rôle opérationnel dans la bonne marche de nos institutions et leurs données ne sont pas accessibles sans une étape d’enregistrement préalable. Y a-t-il une raison existentielle qui justifie l’identification forte de l’utilisateur (cachetée avec certificat électronique !) pour l’accès à de la donnée censée être majoritairement publique ?

Enfin notons les efforts honorables de l’association citoyenne TAFRA qui existe depuis 2014 et qui oeuvre sur les terrains politiques et électoraux à travers notamment un petit portail de donnée à jour et facilement utilisable.

Ce qui ne va pas dans notre portail Open Data

L’acteur qui nous intéresse aujourd’hui est le portail national de l’Open Data développé par l’ADD. C’est celui que nous allons analyser en détail afin de comprendre les avancées ainsi que les manquements par rapport à l’idéal de l’Open Data.

Nous comparerons notamment les divers aspects de data.gov.ma aux grands portails mondiaux :

Sur les aspects liés à la conception du portail :

Critère Score Commentaire Comparaison
Navigabilité 5/5 Le site est bien construit, clair et les données sont simples d’accès. Je trouve personnellement agréables les couleurs et motifs qui rappellent le pays On retrouve une structure à peu près similaire sur le portail de la Nasa
Découvrabilité 4/5 La recherche par mots-clés fonctionne bien mais il manque des fonctions sémantiques avancées comme la recherche par racine (faire le lien entre “tribunaux” et “tribunal”, les deux recherches renvoyant des résultats disjoints) et la recherche sémantique (faire le lien entre “ovin”, “caprin”, “bétail”, “élevage” qui retournent tous des résultats vides malgré l’existence d’un dataset cheptel). Une correction orthographique basique (chepptel vs cheptel) aurait également pu être utile. Disposer du critère de recherche par date de publication aurait été un vrai plus Le portail coréen est capable de gérer des fautes d’orthographe (pas trop nombreuses et si elles ne touchent pas les deux premiers caractères d’un mot). Les portails européen et marocain utilisent un système de mots-clés synonymes (tags) pour gérer la proximité sémantique (de manière efficiente) mais il est tributaire de la saisie de ces mots-clés ce qui n’est pas aussi complet qu’une proximité sémantique comme celui du portail irelandais
Visualisation 3/5 Bien qu’il y ait un visualisateur de données tabulaires accompagné d’un outil générique de conception de graphe, aucune fonctionnalité de visualisation avancée n’a été mise en place. Ni résumé automatique des données tabulaires, ni visualisation systématique des données de type nombre. La fonction de visualisation permet de rapidement avoir une idée de ce que contiennent les données et fait apparaître parfois les problèmes sans avoir besoin de les charger dans un outil spécifique. Certaines données csv rendent le visualisateur inutilisable car n’ayant pas la virgule en tant que séparateur Les portails de Hong Kong et Singapour permettent une visualisation géographique riche d’un grand nombre d’indicateurs urbains. Aucun portail dans ceux analysés ne propose une synthèse automatique des données mais les portails français et anglais accompagnent les données d’une longue description qui donne du contexte et peut faire office de résumé
Communauté 3/5 L’échange communautaire a été implémenté dans notre portail national mais au niveau global, pas au niveau de chaque source de données. La plupart des demandes concernent la mise à disposition de données nouvelles sur le portail. Mention spéciale à l’administrateur qui répond à quelques commentaires mais doit être submergé par le nombre de celles-ci et l’incapacité de pouvoir s’engager sur l’arrivée de nouvelles données Le portail français est une référence en la matière puisqu’on y retrouve une section “discussion”, une section “réutilisation” pour partager les cas d’usages et une section “ressources communautaires” pour enrichir les données proposées par de l’information issue de la communauté

D’un point de vue fonctionnalités, le portail data.gov.ma est de bonne facture et peut aisément rivaliser avec les portails mondiaux. Sans aller chercher la perfection, il remplit son rôle et est utilisable sans difficulté ni bug.

Sur les aspects liés au Data Management :

Critère Score Commentaire Comparaison
Dictionnaire de donnée 1/5 Pour les données tabulaires (csv et excel), aucune information de type metadata n’est affichée. Seuls les champs sont visibles mais nécessitent d’aller dans l’explorateur ce qui ne facilite pas la recherche. On rappelle qu’une donnée sans dictionnaire est quasiment inutilisable sans faire de suppositions hasardeuses J’ai été étonné de découvrir que ce n’est pas une pratique répandue puisque seul le portail français présente de manière explicite un onglet “métadonnée” mais sans détailler les caractéristiques de chaque champ sauf pour certaines données qui sont munies d’un document explicatif séparé. Tous les portails par contre pallient à ce besoin en ayant des descriptions étendues
Responsabilité 0/5 Seule l’administration productrice de la donnée est affichée. Aucun formulaire de contact ni nom de personne n’étant présent, il est impossible d’interagir avec le responsable de l’information présentée Les portails anglais et français permettent de contacter le data owner. Le portail de la Nasa affiche même l’adresse mail de la personne responsable qui peut être contactée à travers un formulaire
Qualité de donnée 0/5 NA Aucune information de qualité (technique ou fonctionnelle) n’est présentée. La qualité technique de la donnée concerne le fichier partagé : données manquantes, champs inversés, formats numériques ou de date, problème de séparateur. La qualité fonctionnelle est liée au contenu des champs dont le producteur peut connaître les failles à travers d’autres mécanismes et les partage pour information aux utilisateurs : typiquement “attention, historiquement cette saisie n’est fiable qu’à 60%”. L’avis du Data Owner a beaucoup d’importance car c’est le meilleur juge de la qualité de sa donnée Étant donné qu’aucun portail dans notre sélection n’affiche ce type d’information (étonnant), le scoring est non applicable
Standardisation 3/5 Seule une petite moitié des données a un format exploitable (normalement tabulaire) et sur les 400 jeux de données disponibles, on n’en compte que 10 sous format csv (ce devrait être le format de référence) et plus de 200 sous le format semi-propriétaire excel. Certaines données intéressantes se cachent dans des documents word ce qui les rend très difficilement exploitables de manière programmatique (par exemple “PRINCIPAUX INDICATEURS SECTEUR CINEMA”, “Célébration de la Journée mondiale de la Musique” ou encore “Utilisation des adresses IP au Maroc”) Le portail français fait office d’excellent élève puisque quasiment tous les datasets que j’ai exploré contiennent les données dans de nombreux formats et quasi systématiquement au format csv. Sur les portails coréen et anglais, ce sont plus de 70% des données qui sont dans des formats acceptables. Sur le portail européen, le format csv est le plus représenté des 1,5 millions de jeux de donnés disponibles

Le data management permet de transformer la donnée en actif. Une information cachée dans un document word n’est pas du tout mise en valeur et s’avère fastidieuse à exploiter. Notre portail reste dans la moyenne mondiale mais pourrait bien mieux faire sur ces aspects.

Sur les aspects liés au contenu de la data :

Critère Score Commentaire Comparaison
Fraîcheur 2/5 NA Sans filtre global sur l’année, il est difficile d’évaluer rapidement le niveau de fraîcheur des données du portail. Il y a 20 jeux de données avec la mention 2022 contre 104 pour 2021 et 49 pour 2020. Certaines données concernent des plages (par exemple “Production végétale 2010-2020”) tandis que d’autres ont été ajoutées à une année spécifique sans mise à jour (par exemple “Universités Marocaines 2014”). J’ai tout de même constaté que beaucoup de dataset avait une date de mise à jour à 2021 pour une date de création bien antérieure et ce malgré un contenu qui n’avait pas changé. Une grande partie des données datant de la pandémie, il faudra évaluer le niveau de fraîcheur dans quelques années Tous les portails affichent une date de dernière modification mais aucun n’implémente une recherche par date de donnée. Il est donc difficile de dire si le portail national est moins bon que la sélection étudiée
Granularité 2/5 Sur l’éducation ou la santé par exemple, il n’y a aucune donnée à la granularité population mais uniquement des données administratives ayant un intérêt limité (liste d’établissement, etc.). Sur l’emploi, les chiffres du chômage datent de 2015 et sont présentés à une granularité tranche d’âge et sexe mais dans un document word. La population du pays est décrite dans un fichier excel inutilisable sans reconstruction à une granularité tranche d’âge de pyramide de population. Mettre à disposition des données fines nécessite un travail important mais permet de produire infiniment plus de valeur grâce au croisement géographique et par tranche d’âge Là aussi, le portail français se distingue par des données à une granularité très petite. Les informations de source INSEE sur la population sont très détaillées par exemple, mais chez nous il faudrait récupérer cette information du HCP. Grosso modo, il ne semble pas que les portails mondiaux en aient également fait une priorité, seule la tradition statistique française fait office d’exception
Richesse de contenu 0/5 C’est probablement l’aspect qui fait le plus défaut au portail : son contenu famélique. Il n’y a guère plus de 400 jeux de données produits depuis les 10 ans de vie du portail. Pourquoi ? Y a-t-il un problème de collaboration avec les ministères ? Un sujet de périmètre avec le HCP ? Une volonté absente à l’échelle du middle-management étatique ? Le portail anglais c’est 52.631 jeux de données disponibles. Le français en totalise 42.644 et la Corée 73.545 ! Ce sont à chaque fois deux ordres de grandeur supplémentaires par rapport à ce que nous avons produit

La diversité et profondeur des jeux de données sont la brique de base d’une stratégie Open Data qui sert activement l’écosystème. C’est l’élément essentiel qui est censé déclencher le cercle vertueux de la réutilisation des données qui engendrera des retombées positives notamment en termes de communication et permettra de remotiver l’ensemble de la chaîne en commençant par les décideurs et sponsors. Les autorités françaises l’ont très bien compris puisque chaque jeu de données est accompagné d’un onglet “Réutilisation” permettant de tracker la valeur produite. Tant que la donnée n’est pas là, le portail risque de devenir une décoration digitale.

Quid du HCP ?

Une partie de l’information qui manque au portail Open Data se trouve dans l’interface base de données BDS du HCP mais celle-ci semble être délaissée techniquement (pas de certificat HTTPS) et se révèle être peu esthétique et pas aux standards de l’Open Data (à supposer qu’une telle ambition était présente). On y retrouve d’ailleurs principalement des séries temporelles sans description ni granularité fine et dont les données recoupent parfois celles du portail Open Data.

Le HCP devrait pourtant être à l’avant-garde de ces efforts : de nombreuses informations importantes sont enfermées dans des fichiers pdfs difficiles à exploiter. Quant aux annuaires et bulletins statistiques, ils sont dans des onglets excel sous des formes non APIsables qui empêchent la réutilisation programmatique. Mais là encore, n’étant pas un portail ouvertement Open Data, on ne peut rien reprocher à notre entité statistique nationale.

Il faut noter que les données de recensement et d’enquête de la population de 2007, 2012 et 2014 sont disponibles dans leur granularité la plus fine au format SPSS, STATA et surtout texte. Si cette granularité était reproduite sur d’autres types de données et rafraîchie, nous aurions une mine d’or à disposition.

Que faut-il retenir de toute cette analyse ?

Dans son rapport de 2020 sur l’Open Data, le CESE listait trois freins de l’administration marocaine empêchant l’émergence d’une vraie révolution Open Data :

  • la culture du secret
  • la résistance au changement
  • la tendance à l’accaparement individuel de l’information comme source de pouvoir

L’idéal Open Data est très difficile à atteindre et il faut rigueur, abnégation, concertation et une stratégie transverse portée par l’ensemble de l’administration pour réussir ce pari. Nos portails s’apparentent pour l’instant plus à des dépôts d’information qu’à des bases structurées complètes. C’est le syndrome du marécage data bien connu de tous ceux qui essayent de mettre en place un datalake d’entreprise dans un contexte technique et organisationnel complexe sinon défaillant.

Des idées pour nos décideurs

Plus de granularité et de plus de données nouvelles et mises à jour devraient être les priorités de notre stratégie Open Data. En termes de granularité, il faut sortir de la logique série temporelle agrégée et descendre aux région/villes/quartier, idéalement géolocaliser les faits mesurés puis choisir une grille de type iris comme celle dont dispose le HCP et standardiser l’information sur cette grille. Afin de ne pas sacrifier la confidentialité des données personnelles, il faudrait se mettre d’accord sur un seuil de granularité au-delà duquel il ne faut pas aller. Cela peut être par exemple une combinaison de variables démographiques et socio-économiques choisies parmi :

  • Tranches d’âge : Incréments de 10 ou 15 ans
  • Genre : H/F/NA
  • Niveau scolaire : Primaire/Secondaire/Supérieur
  • Profession : Secteurs d’activité

C’est une des spécialités du HCP qui dispose et applique une méthodologie dont l’esprit s’adapte aux variables récoltées selon les enquêtes. Pour uniformiser ce type de méthodologie, il ne faudrait garder que des variables simplement récoltables dans les administrations (le revenu n’en fait pas partie par exemple). Le bureau du recensement américain (le Census Bureau) dispose de règles similaires destinées entre autres à anonymiser correctement les zones faiblement peuplées afin d’éviter de dévoiler des données personnelles (la variables “race” et “ethnies” ayant des cardinalités importantes, il y a un risque de désanonymiser les petits groupes)

Quelles données manquent à l’appel dans notre portail ? Passons en revue quelques propositions qui pourraient apporter beaucoup de valeur à l’écosystème :

Autour de la santé

18 jeux de données sont disponibles autour de l’infrastructure hospitalière et d’indicateurs CNSS et CNOPS, soit principalement de l’information statique. Il serait intéressant d’avoir :

  • Le nombre et les caractéristiques démographiques et professionnelles des effectifs hospitaliers avec les spécialités couvertes
  • Le détail des maladies traitées et de la mortalité par unité de soin
  • Le détail des contaminations et de la vaccination Covid-19 (puisque tous les PCRs sont nominatifs et remontés) : caractéristiques socio-démographiques, co-morbidité, type de traitement prescrit

Le portail Open Data des services de santé de l’Etat de la Californie offre par exemple la liste nominative des médecins ainsi qu’un nombre important de statistiques sur l’activité hospitalière

  • La consommation de médicaments du pays répartie géographiquement

Les prescriptions de médicaments sont non seulement digitalisées au Royaume-Uni mais structurées et exposées sur le portail Open Data de la NHS (National Health Service)

  • Les inspections de l’ONSSA, les sanctions prononcées et les campagnes de contrôle

A New-York, toutes les violations sanitaires suite à une inspection sont consignées dans le portail Open Data de la ville, l’information est publique, le type de violation est détaillé et les établissements nommément identifiés Sanitation

L’objectif est de rendre publique régulièrement l’état de santé des marocains et du système de santé de manière générale.

Autour de l’éducation

17 jeux de données sont disponibles là aussi quasi exclusivement autour de l’infrastructure éducative (listes d’établissement dont une grande partie date de 2014). Il manquerait :

  • La localisation ainsi que des informations statiques sur les établissements éducatifs (taille et qualifications des équipes enseignantes, nombre d’élèves, filières gérées)
  • Des informations dynamiques sur les taux d’échec au baccalauréat, de redoublement, d’abandon, de réorientation et d’insertion professionnelle (idéalement accompagnées d’information socio-démographiques)

Difficile de ne pas parler de l’incroyable portail de l’éducation française qui regroupe une quantité énorme d’information sur le système éducatif, ses infrastructures et ses élèves et étudiants

Les données éducatives permettront de mettre une pression supplémentaire sur les établissements déficients tout en ajoutant de la transparence au débat sur l’échec de notre stratégie éducative.

Autour du secteur du transport

Aucune donnée liée au transport n’est présente sur notre portail alors qu’il s’agit d’un enjeu majeur pour lequel le pays a consacré des milliards de dirhams en infrastructure (TGV, autoroute, voies rapides)

  • Il serait intéressant d’avoir des statistiques granulaires sur les voitures comme la ville et la lettre d’immatriculation, le modèle, l’état de la visite technique et la date d’immatriculation
  • Concernant les transports ferroviaire et aérien, on pourrait avoir le détail de la flotte de trains, d’avions, leur capacité et degré de vétusté, les liaisons desservies avec les horaires sous format API
  • La géolocalisation officielle des réseaux de transport aérien, routier, tramway et ferroviaire (potentiellement maritime également) et dans le cas du transport routier, les données temps réel de trafic

Les londoniens ont un portail Open Data dédié au transport extrêmement riche. On y retrouve quasiment toute l’infrastructure mais aussi des APIs des horaires des bus ainsi que la possibilité de visionner le flux vidéo des caméras de vidéosurveillance qui pullulent dans la ville

  • Une vraie base de données officielle du référentiel des adresses qui soit mise à jour régulièrement à mesure de l’urbanisation du pays

En France, la BAN (base adresse nationale) est devenue un indispensable de l’Open Data géographique et a été par exemple pour moi très souvent utile dans mon travail par le passé. C’est une des neuf bases de données de référence de l’open data français.

Les données de transport ont un potentiel économique très important sur les acteurs de la logistique et de la mobilité urbaine mais également pour les citoyens. Les usages ne manqueront pas si les données sont suffisamment fiables, fraîches et granulaires.

Quelques autres sources de données d’intérêt

  • Les actes notariés anonymisés de vente de bien (prix, localisation, surface, caractéristiques)

La France a ouvert ses données de manière totale (en respectant la confidentialité des parties) avec une belle réutilisation sur un site d’exploration des transactions devenu un partenaire indispensable de tout acheteur ou vendeur de bien Immobilier

  • Les statistiques des crimes sur une maille géographique (nature de délit, caractéristiques de l’auteur et de la victime)

Au Royaume-Uni, les crimes sont géolocalisés et classés par type de délit et un statut de l’investigation est donné. Le tout est disponible sur un portail Open Data exposant des fichiers mais également des APIs pour les réutilisations comme sur l’image de l’endroit ci-dessous où il ne vaut mieux pas garer sa voiture Crimes

  • Les statistiques d’assiduité des parlementaires, les votes des deux chambres, les commentaires et interventions

Illustration sur une initiative de tracker du congrès américain, un outil exceptionnel pour suivre, analyser et scorer le représentant de votre Etat, ce faisant rapprochant le citoyen de ses élus. Le congrès expose des API très riches sur l’ensemble de l’activité démocratique de ses sénateurs et représentants. GovTrack GovTrack

  • Toute l’information publique des sociétés : bilans, statuts, marques et brevets. Ces données sont actuellement retravaillées par des acteurs privés (car la donnée brute n’est pas exploitable) et revendues alors que cette information devrait être un bien commun au service de tous les acteurs y compris ceux qui ne peuvent pas payer ce ticket d’entrée

En France, une base nationale des entreprises existe sous le nom de Sirene et fait partie des 9 bases de données publiques stratégiques de l’Etat français

  • Des données socio-économiques similaires à celles du recensement et des enquêtes (travail, chômage, consommation, niveau de vie) à une fréquence plus importante que celle du HCP. Il me semble que cela devrait être possible de les reconstruire en croisant les données des administrations fiscales et de l’intérieur

En parlant d’accessibilité, les données de marchés publics et les annonces légales devraient être téléchargeables par lot et pas seulement de manière unitaire et derrière des barrières technologiques (franchissables) (c’est le principe de non-discrimination, un des principes fondamentaux de l’Open Data), cela rendrait leur analyse plus simple et systématique. C’est le cas par exemple de la donnée de jurisprudence dont le très bon portail contient 9628 décisions qui ne pourraient être massivement récupérées qu’à travers le scrapping sauvage de près de 1000 pages du site (pratique très déconseillée car pouvant fragiliser les systèmes peu habitués à des charges importantes).

La science-fiction et le potentiel perdu

Quand je relis les paragraphes précédents, j’ai personnellement l’impression d’être dans de la science-fiction et peut-être vous aussi. Nous nous sommes à habitués à des objectifs nationaux très ambitieux pour des réalisations modestes qui en général ne sont pas maintenues au-delà de l’effet inauguration-communication (ce sujet mériterait un article sociopsychologique à lui seul). Est-il réaliste de demander toute cette donnée alors que peu de pays dans le monde l’ont réussi complètement ? Pouvons-nous nous prévaloir d’une exception marocaine ?

Au-delà de l’ambition, la première réaction de l’administration sera probablement de dire dans un réflexe jaloux et défensif “mais pour faire quoi ?”. Ce type de question est fréquent dans le monde de la data où on vous demande en général de justifier le besoin avant d’avoir les données. C’est une erreur classique mais grave car on oublie souvent que les idées viennent en manipulant, que les business models se façonnent de manière itérative, que la granularité et la diversité de la donnée ouvrent la voie de tous les possibles. Faisons le pari de la confiance et osons un Open Data décomplexé riche et responsable.

Sans être exhaustif, l’Open Data promet:

  • De nouveaux use cases de startup qui s’alimenteront de données ouvertes et gratuites facilitant ainsi leur démarrage
  • La mise à disposition d’information plus fiable pour les administrations qui peuvent croiser leurs données (dans un contexte de registre social unifié critique pour une meilleure redistribution des aides et subventions) mais également pour le citoyen qui aura la possibilité d’échapper aux préjugés non fondés des réseaux sociaux et influenceurs à travers l’émergence d’acteurs responsables dans l’analyse de l’information
  • La culture de la démocratisation de l’accès à l’information : l’Open Data est un des livrables naturels d’une démocratie qui s’assume et assume le débat factuel et transparent avec ses citoyens
  • Une vigilance populaire facilitée face aux dérives de l’arbitraire et moins de corruption pour les entités qui exposent leurs données (CF discours de Sa Majesté sur la lutte contre la corruption). A ce sujet, l’expert de l’Open Data américain Joshua Tauberer décrit les bénéfices de l’ouverture des données avec l’iconique expression Sunlight as Disinfectant, c’est-à-dire que le simple fait d’ouvrir l’information de manière publique réduit la corruption. La lumière du soleil est faible mais globale, son principal bienfait est d’éclairer toute l’activité étatique pour aider la electrical light, plus ciblée et approfondie, des journalistes, citoyens et entités anticorruption à adresser de manière efficiente les zones d’ombre potentielles

En termes d’indicateurs chiffrés, une étude européenne promettait en 2015 une réduction des coûts de l’administration de 1,7 milliards d’euros dans les 28 pays de l’Union à horizon 2020. L’étude pointe également que la réduction des problèmes de congestion routière grâce à l’Open Data pourrait faire économiser jusqu’à 1% du PIB européen (soit 160 milliards d’euros) !

En France, la structuration et publication d’une base nationale d’adresses fiable a contribué à hauteur de 0,5% d’augmentation du PIB français, infiniment plus que n’importe quel bénéfice privé réalisé par la commercialisation de ce type de données et de services !

L’agence gouvernementale Nesta, équivalent de l’ADD au Royaume-Uni, estime dans un rapport écrit avec PwC que pour chaque £1 investi dans des actions Open Data bien choisies et encadrées, le retour sur investissement est entre £5 et £10 pour l’économie anglaise !

L’Open Data, c’est aussi de la donnée brute consommée par des intermédiaires spécialisés qui font de sa valorisation et revente leur spécialité. Selon un rapport de la Banque Mondiale de 2014, c’est par exemple un marché de 330 à 550 millions d’euros en Espagne.

Conclusion

En tant que citoyens, nous avons la responsabilité de demander des comptes aux administrations et l’article 27 de la constitution nous autorise à présent à le faire depuis l’entrée en vigueur en 2020 des dispositions de la loi 31-13. Le droit de récupérer nos données, les données publiques qui nous représentent, se fait à travers un formulaire de la Commission du Droit d’Accès à l’Information (CDAI).

La donnée marocaine existe mais elle doit être systématiquement digitalisée, anonymisée, potentiellement agrégée puis ouverte. Cette hygiène du data management et de l’open governement est une nécessité si l’on veut tirer un maximum profit du potentiel humain et technologique du pays en un temps record. Ce levier est à notre portée et ne nécessite ni pétrole ni innovation mais simplement de la rigueur, un pilotage rapproché et un leadership aiguisé.

Sources

Modifications

  • Les annonces légales sont disponibles sur le site du secrétariat général du gouvernement mais nécessitent une authentification sur annonceslegales.gov.ma. La phrase concernée par cette erreur a été supprimée. (27/12/2022)
  • Les données de marché publics nécessitent une inscription afin de notifier les soumissionnaires d’éventuelles modifications (ce qui arrive fréquement). La pharse concernée a été supprimée. (27/12/2022)