Mission données et codes sources

Voici une copie du document que j’ai rédigé et fourni à l’occasion de mon audition par le député Éric Bothorel dans le cadre de cette mission.

Image for post
Image for post

Cadre juridique : décalage entre principes, théorie et réalité

Le principe d’ouverture des données publiques et des codes sources s’est fait dans un premier temps sur la base de la loi de 1978 créant le droit d’accès aux documents administratifs ainsi que la Commission d’Accès aux Documents Administratifs (CADA). L’opendata a démarré en France à partir de cette base juridique.

La gratuité d’accès a ensuite été confirmée par la loi Valter de 2015 relative à la gratuité et aux modalités de la réutilisation des données publiques qui est une transposition tardive de la directive européenne 2013/37/UE (6 mois après la date limite).

Le tout a été confirmé et renforcé par la Loi pour une République Numérique (loi Lemaire) de 2016 qui a apporté de nouveaux concepts :

Dans la pratique, presque 4 ans après la promulgation de la Loi Lemaire, on constate :

  • une ouverture par défaut très partiellement appliquée,
  • un service public de la donnée erratique,
  • des données d’intérêt général rarissimes,
  • des licences exotiques encore utilisées ou crées par certaines administrations,
  • des données (et/ou logiciels) encore vendues en toute illégalité (une enquête de la Cour des Comptes l’a confirmé, enquête aux conclusions malheureusement non rendues publiques).

La CADA reste encore trop souvent un passage obligé pour un rappel au droit actuel et son application se fait encore trop souvent par des procédures devant les tribunaux administratifs. Ceci peut s’entendre pour des acteurs locaux qui peuvent ne pas être au courant de l’évolution du droit, c’est beaucoup moins excusable pour les administrations centrales, services de l’État et opérateurs divers.

C’est avec ce constat que des initiatives comme le site « madada.fr » ou l’action de l’association Ouvre-Boite ont vu le jour ces dernières années, l’un pour faciliter les demandes d’accès en les automatisant, l’autre pour faire appliquer le droit en portant devant les tribunaux des cas manifestes de refus d’ouvertures. Cette association est d’ailleurs animée par de nombreux anciens agents publics qui ont constaté le dysfonctionnement vu de l’intérieur.

La CADA reste sous-dimensionnée par rapport aux nombreuses saisines qu’elle reçoit. Ces saisines sont trop nombreuses en grande partie par le refus de communication par les administrations (explicites ou implicite par leur trop habituelle absence de réponse). L’absence de sanction ou de simples conséquences ne favorise pas le respect du droit. Il n’y a que le « name and shame » qui a parfois de l’effet, la CADA devant en effet publier ses avis.

A titre d’exemple : plusieurs démarches citoyennes parallèles ont été menées pour obtenir la publication en opendata des données sur l’espace aérien produites par la Direction Générale de l’Aviation Civile. Ces données sont nécessaires au respect des espaces aériens et donc indispensables pour la sécurité aérienne.

Plusieurs saisines CADA ont été faites, tous les avis ont été favorables. Ce rappel du droit n’ayant pas suffi, des procédures ont été lancées au tribunal administratif. Le Ministère a déployé et déploie encore via son cabinet d’avocat tout un argumentaire dilatoire.

Pendant ce temps, les données vendues (illégalement depuis la Loi Valter de 2015), ont dans un premier temps disparu de la boutique en ligne de la DGAC.
Ces données sont ensuite devenues à nouveau disponibles, gratuitement, mais avec un mode de diffusion inadapté et non conforme aux textes, ainsi qu’une licence « maison » non homologuée et donc illégale. Les procédures se poursuivent donc... alors qu’une simple publication mensuelle (automatisable) du fichier sur data.gouv.fr sous Licence Ouverte satisferait tout le monde.

Le principe créé par la Loi Lemaire en 2016 est de garantir sur le long terme la publication et la mise à jour de certaines données jugées essentielles car servant de pivots entre de très nombreux jeux de données qu’ils soient publics ou privés. Nous avions été convaincus à Etalab par cette notion de «données pivot » lors d’une rencontre avec nos homologues danois et leur concept de
« basic data » et porté ce projet auprès du cabinet Lemaire avec son atterrissage dans la Loi.

Pour que ce service public de la données ait un large impact et favorise l’adoption par les acteurs économiques, il faut garantir la stabilité de la diffusion, la qualité des données diffusées et leur fraîcheur (un élément important de qualité). C’était l’objectif de la Loi, mais il ne faut pas sous
estimer « la tragédie de l’exécution ».

Les négociations menées par la mission Etalab avec les administrations ont aboutit à un décret et un arrêté prévoyants neufs bases de données ainsi que leur fréquence de mise à jour qui va de quasi quotidienne pour la base SIRENE de l’INSEE à annuelle pour d’autres.

Sur le plan de la qualité des données, aucune garantie n’a pu être obtenue de la part des administrations productrices et la stabilité de la diffusion a longuement été négociée pour un résultat à minima. On aboutit ainsi à un taux de disponibilité de 99 % pour les téléchargement, là où l’état de l’art permet sans problème d’atteindre 99.9 % pour un service aussi basique.

Sur la stabilité de la diffusion, plusieurs manquements ont pu être constatés :

  • l’INSEE qui modifie le contenu en supprimant certaines informations de la base SIRENE et son mode de diffusion avec un respect très approximatif des délais pour permettre aux ré-utilisateurs de s’adapter (y compris publics!),
  • encore l’INSEE qui abaissent ensuite les quotas de requêtes à ses API désormais seul moyen fiable proposé pour accéder à des données à jour là où au départ les mises à jour étaient téléchargeables quotidiennement (problème aussi de recourt abusif aux API pas toujours bienvenues),
  • la DGFiP qui respecte approximativement la fréquence trimestrielle de publication du cadastre (l’édition de juillet 2020 n’a été publiée qu’en septembre, celle d’avril n’a jamais été publiée)
  • l’IGN qui diffuse l’ensemble du Référentiel à Grande Échelle (qui n’est toutefois pas en opendata) a son site professionnel coupé depuis l’automne dernier. Il servait à obtenir les clés d’API et de la documentation.

On est encore un peu loin du slogan « des données sur lesquelles vous pouvez compter ».

Il y a globalement un manque de respect des usagers de ce nouveau service public qui peut s’expliquer par l’absence de financement de celui-ci. L’INSEE qui commercialisait la base SIRENE n’a eu une compensation que pour quelques années. Le paradoxe est aussi que l’économie engendrée par la mise en œuvre du Service Public de la Donnée est générée à l’autre bout de la
chaîne sans qu’il n’y ait de ré-équilibrage en interne.

La Loi Lemaire y consacre une section entière avec :

  • l’extension de l’ouverture aux données produites par tout acteur assurant une délégation de service public (ceci est encore souvent contesté ou non mis en œuvre),
  • l’ouverture des données de justice (pas encore effective),
  • la constitution d’une base nationale des vitesses autorisées sur route (mission semble-t-il confiée à l’IGN mais toujours pas disponible à ce jour),
  • la publication des données sur l’énergie,
  • l’accès aux valeurs foncières (publiées depuis en opendata en 2019).

Malheureusement la Loi a ici fait du cas par cas au lieu de prévoir un cadre général et de définir plus globalement ce qui relève des données d’intérêt général.

D’autres textes ont aussi prévu depuis 2016 la constitution de bases de données relevant de l’intérêt général.

Exemple : La base de localisation des défibrillateurs. L’intérêt général est ici indéniable, mais les bases les plus complètes et à jour sont pour l’essentiel privées. Les acteurs pouvant alimenter le plus efficacement ces bases (installateurs/mainteneurs) n’étant pas ceux directement visés par la Loi, la constitution actuelle de la base relève de la tragédie de l’exécution : base très partielle, processus d’alimentation trop capillaire, qualité des données fournies très aléatoire, etc. D’autres choix auraient permis d’être bien plus efficace.

Les initiatives citoyennes comme alternatives

Tout comme la nature, les citoyens ont horreur du vide. Lorsque l’accès aux données n’est pas possible ou trop limité, ou que les données n’existent pas, les initiatives citoyennes se développent pour compenser ces manques.

OpenStreetMap : en 2004 au Royaume-Uni, un étudiant ne pouvant accéder aux données géographiques « payées par ses impôts » lance ce projet sans but lucratif, animé depuis par des millions de contributeurs bénévoles à travers le monde.

Ces données sont devenus incontournables et sont utilisées tant par de nombreux services publics (y compris Police/Gendarmerie, SDIS, SAMU, SNCF, etc) que le secteur privé.

En France en 2014, l’initiative de « Base Adresse Nationale Ouverte » lancée par OpenStreetMap France a débloqué la situation sur la « BAN » dont on entendait parler depuis des années sans avancée effective.

Aujourd’hui, alors que la base nationale des vitesses maximales sur route semble elle aussi au point mort, OpenStreetMap fournit la base ouverte la plus riche sur cette thématique.

A propos des défibrillateurs, un « projet du mois » a été lancé ce mois-ci pour compléter les données OpenStreetMap, améliorer les données de la base officielle et faire des remontées sur sa qualité par comparaison au réel constaté sur le terrain par les contributeurs.

Open Food Facts : créé en France en 2012 pour constituer une base sur la composition des aliments, une sorte de wikipédia de nos aliments, là aussi sans but lucratif et alimenté par des contributeurs bénévoles.

Cette base a par exemple permis de caler les paramètres du nutriscore et proposé son calcul et affichage sur l’appli smartphone bien avant que celui-ci ne doit officiellement adopté et indiqué sur les emballages. Elle a aussi permis le développement de nombreuses applis, la plus connue étant Yuka.

Exemple récent : les données sur l’épidémie de Covid19 en France. L’absence de données publiées par les autorités sanitaires qui se contentaient de simples communiqués de presse a poussé un collectif « opencovid » (dont j’ai fait partie) à extraire manuellement de ces communiqués les données les plus fines (par département), à les mettre en forme pour permettre traitements et analyses et à en faire une visualisation géographique (http://veille-coronavirus.fr) pour les rendre compréhensibles par le plus grand nombre.

Ce site a ensuite été repris par le gouvernement et officialisé, puis complété quand les autorités de santé ont finalement publié des données.

Utilisateur ou contributeur : quel rôle dans les communs numériques ?

Ces initiatives ont créé des communs numériques, ouverts tant à la ré-utilisation des données collectées qu’à la contribution pour en améliorer collaborativement le contenu.

La même logique s’applique aux logiciels libres. On peut être simple utilisateur d’un logiciel libre ou bien contribuer à son développement et son amélioration permanente. La possibilité de contribution différencie d’ailleurs les logiciels libres et ceux opensource (où la contribution n’est pas forcément encouragée voire même souhaitée) avec toutes les nuances entre les deux.

Cette logique de commun permet un grand gain d’efficacité en évitant la duplication des efforts parallèles. Malheureusement, les administrations sont souvent encore organisées en silo peu collaboratifs, voire mettent en concurrence des entités qui devraient travailler de concert. Elles sont
donc souvent très peu contributrices et restent de simples consommateurs de données. La culture collaborative manque globalement.

L’ouverture de codes sources est rarement faite avec une logique collaborative. Le code est publié, rien n’est prévu pour les éventuels retours d’améliorations. A l’inverse, l’utilisation de logiciels libres et opensource par les administrations trop habituées aux logiciels propriétaire sur lesquels on
ne peut intervenir, font que rares sont les améliorations faites et encore moins partagées en retour.

Pour les données publiques, c’est aussi le constat que l’on peut faire. Elles sont publiées (opendata comparable à opensource), mais sans boucle de retour pour en améliorer la qualité. Au sein du secteur public et comme pour les logiciels, la boucle inverse est aussi l’exception plus que la règle, l’utilisation par exemple de données OpenStreetMap est de plus en plus fréquente,
mais les contributions toujours aussi rares.

Les acteurs privés ont pour certains bien compris l’intérêt du fonctionnement collaboratif, que ce soit sur les logiciels et sur les données. Les plus grand contributeurs au noyau Linux sont pour une bonne part des GAFAM. Apple et Facebook contribuent en masse sur les données OpenStreetMap (Apple a une équipe de plusieurs centaines de contributeurs). Cette contribution ne change pas la nature ouverte et collaborative des communs et fonctionne véritablement en « gagnant-gagnant » car les règles d’utilisation et de contribution (les licences) permettent de maintenir l’équilibre.

Les communs sont d’ailleurs une alternative à la vision qui oppose « données publiques » et « données d’intérêt général provenant du secteur privé ». On n’impose pas l’utilisation d’un commun, mais à partir du moment où on veut en bénéficier, on accepte ses règles et les contributions en retour. Ce volontariat semble une condition nécessaire à une contribution de
qualité, car non contrainte et qui ne sera donc pas faite à minima. Le choix de licence est ici fondamental, de type GPL pour les logiciels et ODbL pour les données qui obligent à partager à l’identique les améliorations et corrections que l’on peut faire.

La logique de commun, n’est toutefois pas applicable à tout. Certaines données publiques, ne sont produites que par le secteur public comme les données financières ou réglementaires.

Vers une véritable logique d’infrastructure de données

L’intérêt pour les données s’est beaucoup focalisé ces dernières années autour de la notion de big data ou d’intelligence artificielle.

L’analyse massive de données permet d’extraire de nouvelle données, informations et connaissances. Pour l’IA il est souvent question de données permettant l’apprentissage de modèles.

Ces deux usages nécessitent des données de qualité. Entraîner un modèle d’IA avec des données mal qualifiées va générer un modèle à « l’intelligence » limitée car il reproduira les biais des données d’entraînement.

Ces usages innovants ne doivent surtout pas masquer un besoin historiquement bien plus important en données de qualité, correctement liées entres elles, indispensables à un fonctionnement fluide du secteur public dans son ensemble et par ricochet aussi pour le secteur privé et les citoyens.

Rares sont les études d’impact de décisions publiques qui s’appuient sur une analyse sérieuse des données, souvent par manque de données facilement exploitables mais aussi par manque de culture de la donnée.

Exemple : lors des discussions autour des zones de non traitement autour des surfaces cultivées, qui a procédé à un calcul pour savoir quel serait l’impact d’une limite à 5, 10, 20, 50 ou 150m ?
Le calcul montre que 150m provoque un impact sur 27 % des surfaces cultivées.

De trop nombreuses données produites par le secteur public ne sont produites que pour un usage, sans penser aux autres usages possibles. L’absence de culture de la collaboration entre les silos et le manque de vue d’ensemble limite le potentiel latent de ces données collectées souvent à grand frais.

On a vu avec l’ouverture de la plateforme nationale data.gouv.fr qu’une part très importante des visites et réutilisations se faisaient dans le secteur public. Il devenait en effet bien plus simple pour un agent d’accéder à des données d’une autre administration là où auparavant il fallait passer par la
hiérarchie, signer des conventions, etc.

La création en 2014 (décret 2014-1050) de la fonction d’administrateur général des données a donné une impulsion pour améliorer cette situation, mais là encore on peut parler de tragédie de l’exécution car aucun moyen dédié n’a accompagné la création de cette fonction.

Cette fonction a quasiment disparu lors de la transformation de la DINSIC en DINUM et son activité aujourd’hui semble inexistante.

Une infrastructure de données est pourtant essentielle à une nation dans le monde actuel tout comme sont indispensables les infrastructures de transports, de santé, d’énergie.

Il s’agit de produire, d’organiser et de faire circuler les données dont l’État a besoin pour qu’il puisse assurer son rôle, pour que les décisions politiques se basent sur des éléments factuels. Cela va au-delà de la statistique publique qui est insuffisante.

Certaines données provenant du secteur privé peuvent être nécessaires. Dans certains domaines, l’État s’appuie déjà sur ces données. De très nombreuses données provenant du secteur privé sont utilisées depuis longtemps par l’INSEE pour produire ses statistiques et études, ou par la DGFiP
pour le calcul des impôts et la collecte de taxes.

Mobiliser plus de données « d’intérêt général » issues du secteur privé, comme le sous-entend votre lettre de mission, peut être nécessaire mais un retard important s’est accumulé dans une production anarchique des données publiques et dans une trop faible circulation de celles-ci par manque de vue
d’ensemble et de coordination.

Faire plus, mais tout aussi mal, n’améliorera pas grand-chose.

Ce qu’il faut améliorer

  • L’application effective et donc sans les réticences actuelles de la Loi Lemaire sur l’ouverture des données publiques et codes source. A ce titre, l’absence de conséquences en cas de non respect est un sérieux handicap pour une réelle application de la Loi qui n’est pas respectée « par défaut ».
  • Une coordination plus franche de la production de données et de codes informatiques, encore embryonnaire et désormais noyée au sein des missions de la DINUM.
  • Adopter les logiques de communs numériques tant par la collaboration en interne qu’avec le secteur privé et les initiatives citoyennes, au sein de communs existants ou à créer quand c’est nécessaire.
  • Développer la culture de la donnée dans un secteur public encore trop centré sur la culture du document (informatique vs bureautique).

Le 14 septembre 2020

Christian Quest

  • Membre fondateur depuis 2011 d’OpenStreetMap France, initiateur du projet « Base Adresse Nationale Ouverte » en 2014
  • Chargé de mission à Etalab de 2014 à 2019, coordinateur technique de la Base Adresse Nationale
  • Administrateur de l’association Open Food Facts depuis 2019
  • Collaborateur parlementaire et conseiller numérique de Paula Forteza depuis 2019
  • Initiateur en 2019 du projet opendatArchives, d’archivages des données opendata

Written by

40 ans d'informatique + 33 de base de données + 25 d'internet + 11 de cartographie = #OpenStreetMap + #opendata + #logiciel_libre

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store