L'ODbL pour les nuls

Christian Quest
5 min readMay 9, 2022

Cet article a pour but de rappeler les principes essentiels de la licence ODbL ainsi que de mettre fin à une confusion régulièrement entretenue depuis des années sur les clauses de partage à l'identique qu'elle contient.

ODbL 1.0

La licence ODbL (Open Database License) est issue du projet opendatacommons.org de l'Open Knowledge Foundation. Elle a été rédigée en 2010 et est utilisée entre autres depuis lors par la Ville de Paris (2010), Toulouse (2011), OpenStreetMap (2012), Open Food Facts (2012).

C'est une licence libre décrivant les droits et devoirs liées à une base de données.

Voici la version "simple" des droits et devoirs définis par cette licence:

You are free:
- To share: To copy, distribute and use the database.
- To create: To produce works from the database.
- To adapt: To modify, transform and build upon the database.

As long as you:
- Attribute: You must attribute any public use of the database, or works produced from the database, in the manner specified in the ODbL. For any use or redistribution of the database, or works produced from it, you must make clear to others the license of the database and keep intact any notices on the original database.
- Share-Alike: If you publicly use any adapted version of this database, or works produced from an adapted database, you must also offer that adapted database under the ODbL.
- Keep open: If you redistribute the database, or an adapted version of it, then you may use technological measures that restrict the work (such as DRM) as long as you also redistribute a version without such measures.

On peut donc utiliser les données au sein de bases de données ou pour produire des œuvres à partir de ces données.

En contrepartie, il est impératif de :
- citer clairement l'utilisation de la base,
- partager les données modifiées sous la même licence.

La version complete du texte de licence est disponible sur https://opendatacommons.org/licenses/odbl/1-0/ et rentre dans les détails plus juridiques.

Le partage à l'identique

Pour aborder ce sujet, il faut distinguer plusieurs notions figurant dans la licence :
- bases dérivées
- œuvres produites
- bases collectives

Une base dérivée correspond à tout ou partie de la base d'origine avec d'éventuelles modifications (ajouts de données, mises à jour de données, suppression de données). C'est une version "améliorée" de la base d'origine. Elle doit être repartagée sous ODbL.

Les bases collectives correspondent à un ensemble de bases de données indépendantes en elles-mêmes qui, ensemble, sont assemblées en un tout collectif. L'utilisation d'une base ODbL dans une base collective n'impose pas de partage les autres bases de données sous OdbL (tant qu'elles sont bien indépendantes, sinon on revient à la notion de base dérivée).

Les œuvres produites, ne sont pas des bases de données, mais produites à l'aide de la base de données. C'est par exemple le cas d'une carte produite à partir d'une base de données géographiques ou bien de statistiques issues de la base de données. Elles peuvent être mises sous n'importe quelle licence, y compris non libre. Lire à ce sujet "ODbL et CC-BY-SA… cousines, mais pas jumelles !"

Certains points sont à relever, en particulier sur la partie "partage à l'identique" (ou share-alike) qui est en 4.4:
- on ne doit pas créer de base dérivée incluant des données sous une licence non compatible avec l'ODbL, car cette base dérivée ne pourrait du coup plus être partagée sous ODbL (tout comme l'inverse : compléter une base non ODbL avec des données issues d'une base ODbL)
- on peut publier uniquement la liste des modifications qu'on a apporté pour créer une base dérivée voire un algorithme qui permet d'appliquer ces modifications sur la base d'origine

L'esprit de l'obligation de partage à l'identique est clairement de favoriser les améliorations de la base de données d'origine en partageant toute amélioration. C'est une obligation vertueuse qui correspond à la logique des communs.

Sans cette obligation, chacun pourrait améliorer les données de son côté, obtenir du coup une base de meilleure qualité sans rien reverser au pot commun. C'est ce que permettent des licences comme la Licence Ouverte, avec une forme de privatisation en mode "chacun pour soi" de la base en multipliant les copies sans refédérer les améliorations quand elles sont possibles.

Certains voient cette clause de partage à l'identique comme "virale" ou "contaminante", des terminologies bien négatives qu'on peut comprendre quand l'objectif est de profiter du commun sans pour autant y participer.

La portée limitée ou non du partage à l'identique

La rédaction de la licence ne limite pas particulièrement la portée de cette obligation de partage à l'identique, elle liste juste les cas où elle ne s'applique pas du tout.

Dans le cas de bases très étendues, avec de nombreuses thématiques abordées, il a pu sembler nécessaire à certains producteurs de ces bases d'indiquer où, pour eux, se situait leur exigence en matière de partage à l'identique. Le plus souvent la motivation est de favoriser une plus large réutilisation des données sans pour autant basculer sur une licence sans aucun partage à l'identique.

C'est le cas d'OpenStreetMap qui a rédigé des "community guidelines" pour indiquer les cas qui, du point de vue d'OpenStreetMap et uniquement d'OpenStreetMap pour ses propres données, étaient couverts ou non par le partage à l'identique. La logique qui prévaut dans ces guidelines reste la même (partager les améliorations), mais en ne considérant pas la base dans son intégralité. Les sous ensemble peuvent être limités géographiquement (regional cut) ou par thématique (horizontal layers).

Les "community guidelines", ne sont pas une explication de texte de la licence ODbL et ne sont pas à prendre comme telles. Elles ne valent que pour OpenStreetMap.

De même, en France en 2015/2016 pour les données transport, des "Conditions Particulières d'Utilisation" sont venus s'adosser à la licence ODbL, pour limiter l'exigence de partage à l'identique, c'est-à-dire renoncer à une partie des obligations prévues par la licence ODbL. C'est un choix que chaque producteur de données peut faire sur ses propres données, mais pas sur des données tierces, même sous licence ODbL.

Ces conditions particulières tiennent en une phrase: "Il est précisé que la clause de partage à l’identique (article 4.4) concerne les informations de même nature, de même granularité, de même conditions temporelles et de même emprise géographique."

Ici encore, ce n'est pas une explication ni une "lecture", ni une clarification de la licence ODbL qui ne dit rien de tel, mais qui n'interdit pas à un producteur de base de données de renoncer à une partie des obligations prévues pour le réutilisateur par la licence.

Le recours à ces conditions particulières a surtout évité de créer une nouvelle licence, un processus trop long alors que l'ouverture de ces données avait déjà commencé, le plus souvent sous licence ODbL (par exemple par la SNCF).
Durant la préparation de la Loi Lemaire, la multiplication des licences avait en effet été identifiée au sein d'Etalab comme une source de complexité créant un cadre réduisant potentiellement les ré-utilisations.
Ceci était déjà clair pour les licences sur les logiciels (très et trop nombreuses), il ne fallait pas que la même erreur se reproduise sur les données.
Suite à la Loi Lemaire, la liste des licences utilisables pour l'opendata public sera d'ailleurs limitée par décret aux seules Licence Ouverte et ODbL, les éventuelles autres devant être homologuées au cas par cas, jeu de donnée par jeu de donnée. A ce sujet, depuis le 17 avril 2022, toutes les licences homologuées sont caduques, la dernière ayant disparu étant celle accordée à l'INPI jusqu'au 16 avril 2022 !

Ainsi ont petit à petit disparues des licences "ODbL de XXX" comme l'ODbL "SNCF" ou celle du "Grand-Lyon" qui s'inspiraient en partie de la licence ODbL tout en y apportant des modifications plus ou moins nombreuses, ce qui créait une grande confusion.

A suivre !

--

--

Christian Quest

40 ans d'informatique + 33 de base de données + 25 d'internet + 11 de cartographie = #OpenStreetMap + #opendata + #logiciel_libre