Or ces données, souvent collectées de manière massive et automatisée, sont susceptibles d’être protégées par des droits de propriété intellectuelle.
Un cas particulier se présente lorsque les données d’entraînement relèvent de licences open source, ces dernières pouvant avoir un effet dit contaminant.
Dès lors, une question centrale se pose : quelles sont les conséquences juridiques de l’utilisation de données protégées par des licences open source pour l’entraînement d’un modèle d’intelligence artificielle ?
Cette interrogation est au cœur des débats actuels relatifs à l’applicabilité de certaines licences open source – et en particulier de la licence GNU GPL – aux modèles d’IA entraînés à partir de données soumises à ces licences[1].
La licence GNU GPL, pierre angulaire des licences open source
Un logiciel libre est un logiciel que tout utilisateur est libre d’exécuter, de copier, de distribuer, d’étudier, de modifier et d’améliorer.
Véritable courant de pensée, le logiciel libre s’inscrit en opposition au modèle dominant du logiciel propriétaire, dans lequel les auteurs du logiciel conservent la faculté d’autoriser, de manière générale ou ponctuelle, l’utilisation, la reproduction ou encore la modification de leur création.
Parmi les licences open source, la GNU General Public License (GNU GPL) occupe une place centrale. Il s’agit de l’une des licences les plus répandues et les plus protectrices des libertés accordées aux utilisateurs.
La licence GNU GPL prévoit notamment les prérogatives suivantes :
- l’utilisation de tout ou partie du logiciel ;
- la possibilité de distribuer des copies du logiciel, à titre gratuit ou onéreux ;
- l’accès au code source intégral du logiciel ou la faculté de l’obtenir ;
- le droit de modifier le logiciel, sous réserve d’identifier les modifications apportées et leurs auteurs ;
- le respect du droit de paternité des auteurs sur leurs développements.
- l’information des utilisateurs quant aux droits attachés à la licence ;
L’élément central de la licence GNU GPL réside toutefois dans son effet de réciprocité : tout logiciel distribué sous licence GPL doit conférer aux utilisateurs les mêmes droits et les mêmes obligations, qui doivent être portées à leur connaissance lors de la distribution.
L’IA peut-elle être contaminée par l’entraînement sur des données sous licence GPL ?
La licence GNU GPL est qualifiée de licence à fort copyleft, en ce qu’elle est « contaminante ».
Le principe du copyleft consiste à garantir qu’un logiciel demeure libre, tout en imposant que toute version modifiée, étendue ou dérivée conserve ce caractère libre.
La licence GNU GPL version 3 prévoit ainsi qu’elle s’applique non seulement au programme initial, mais également à tout travail dérivé, défini comme tout travail contenant le programme ou une partie de celui-ci, à l’identique ou sous une forme modifiée ou traduite[2].
En pratique, presque tout logiciel reposant sur des éléments développés sous licence GPL est soumis à cette licence dans son ensemble : c’est l’effet de contamination.
Appliqué aux modèles d’intelligence artificielle, ce raisonnement soulève des interrogations inédites.
Il semble acquis qu’un LLM dont le code source dépend directement de développements sous licence GPL est lui-même soumis à cette licence, impliquant notamment l’obligation de mise à disposition de son code source.
La difficulté apparaît en revanche lorsque le modèle d’IA n’intègre aucun code sous licence GPL, mais a été entraîné à partir de grandes quantités de données, parmi lesquelles figurent des données protégées par cette licence.
Selon la théorie de la contamination par simple entraînement, l’utilisation de telles données pour entraîner un modèle d’IA pourrait suffire à soumettre l’ensemble du modèle à la licence GPL, en tant que travail dérivé.
L’applicabilité du principe de « copyleft » sur des développements soumis au droit français
Le droit français reconnaît d’ores et déjà la validité juridique des licences libres, leur effet contaminant ainsi que la possibilité d’agir en contrefaçon en cas de violation de leurs stipulations.
Dans une affaire opposant la société Orange à la société Entr’Ouvert, Orange avait développé une solution de gestion de données à partir d’un logiciel distribué sous licence GPL. Un rapport d’expertise a mis en évidence que cette solution reposait à hauteur de 57 % sur le logiciel open source pour son fonctionnement, révélant ainsi une situation de dépendance technique totale.
La Cour de cassation a jugé que, même en présence d’un contrat de licence, en l’occurrence la licence GPL v2, la responsabilité du licencié pouvait être engagée sur le fondement de la contrefaçon[3].
La Cour d’appel, statuant ultérieurement sur le fond, a apporté une réponse définitive en considérant que l’état de dépendance de la solution informatique à l’égard du logiciel open source justifiait la contamination de l’ensemble de la solution litigieuse par la licence GPL[4].
Cette décision constitue une consécration partielle du principe de « copyleft » en droit français.
Plus récemment, la Cour d’appel de Bordeaux a confirmé que l’utilisation d’un logiciel open source en violation des termes de la licence, notamment le non-respect du droit de paternité de l’auteur, caractérise un acte de contrefaçon portant atteinte aux droits patrimoniaux d’auteur[5].
Anticiper les conséquences d’une éventuelle consécration de la théorie de la contamination par simple entraînement aux modèles d’IA
À ce stade, la question de la contamination des modèles d’IA par simple entraînement n’a pas encore été définitivement tranchée. L’affaire Doe v. GitHub, actuellement pendante devant les juridictions américaines et en attente d’une décision en appel, est susceptible d’apporter des éléments de réponse déterminants[6].
Dans l’hypothèse où cette théorie serait pleinement consacrée, les conséquences seraient majeures.
D’une part, cela entraînerait l’obligation de divulguer à tout utilisateur d’un modèle d’IA :
- l’intégralité du code source du programme d’entraînement du modèle ;
- l’ensemble des données d’entraînement utilisées ou à tout le moins le détail des catégories de données d’entraînement utilisées, et ;
- le programme interprétant le modèle qui permet la restitution de réponses aux demandes des utilisateurs.
D’autre part, une violation avérée de la licence pourrait justifier :
- La résiliation automatique de la licence GPL[7], emportant la perte par le développeur du modèle d’IA des droits d’utilisation, de reproduction, de modification et tous les autres droits accordés par la licence sur les développements ou les données protégés ;
- Une action en contrefaçon ou en parasitisme visant à obtenir la fin de l’exploitation des données protégées par la licence, ainsi que des dommages et intérêts.
Un tel scénario représente un risque stratégique considérable pour les opérateurs développant et exploitant des modèles d’intelligence artificielle à des fins commerciales, la mise à disposition de leur modèle sans divulgation de son fonctionnement constituant bien souvent leur actif principal.
La consécration de la théorie de la contamination par simple entraînement impliquerait pour eux la mise en œuvre de mesures drastiques pour prémunir les IA dites « propriétaires » de tout risque de contamination, ce afin d’éviter toute action en contrefaçon.
Or, seule l’exclusion de toutes données issues de logiciels libres permettrait d’offrir cette garantie.
Il n’est cependant pas certain que cette solution doive être retenue, compte tenu de l’inadaptation manifeste de la licence GPLv3 au cas spécifique des LLM.
En effet, la mise en œuvre des dispositions d’une licence open source à l’égard de modèles qui, de prime abord, ne présentent pas un caractère libre suppose, à titre préalable, la capacité d’identifier de manière précise et démontrable, que ce soit au sein du logiciel d’entraînement, du modèle de langage entraîné lui-même ou encore du logiciel d’inférence permettant l’utilisation du modèle, l’existence d’une reproduction d’éléments protégés soumis à une licence open source à effet dit « contaminant », ainsi que le caractère déterminant de ces éléments dans le fonctionnement global du modèle considéré.
Face à ces incertitudes complexes, la Free Software Foundation, éditeur de la licence GNU GPL et de ses dérivés, a annoncé en octobre 2024 lancer les travaux sur la définition des critères pour l’application des libertés des licences libres aux programmes de machine learning.[8]
Ces travaux, associés aux décisions de justice attendues, seront décisifs dans la définition du rôle des logiciels libres et dans l’effectivité des libertés qu’ils défendent à l’ère de l’intelligence artificielle.
***
Le cabinet HAAS Avocats est spécialisé depuis trente ans en droit des nouvelles technologies et de la propriété intellectuelle. Il accompagne de nombreux acteurs dans le cadre de la gestion de leurs portefeuilles de marques et gère notamment les contentieux judiciaires et extrajudiciaires en matière de marques. Dans un monde incertain, choisissez de vous faire accompagner par un cabinet d’avocat fiable. Pour en savoir plus, contactez-nous ici
[1] The Current State of the Theory that GPL Propagates to AI Models Trained on GPL Code – Open Source Guy
[2] GNU GPL v3 : “You may convey a work based on the Program, or the modifications to produce it from the Program, in the form of source code under the terms of section 4, provided that you also meet all of these conditions:
(…) c) You must license the entire work, as a whole, under this License to anyone who comes into possession of a copy. This License will therefore apply, along with any applicable section 7additional terms, to the whole of the work, and all its parts, regardless of how they are packaged.”
[3] Cour de cassation, Chambre civile 1, 5 octobre 2022, 21-15.386, « Sté Entr’Ouvert c/ SA Orange et a. »
[4] CA Paris, 14 févr. 2024, pôle 5-1, n° 22/18071
[5] CA Bordeaux, 27 janv. 2025, n° 20/0322
[6] Doe, et al. v. Github, Inc., et al., 24-7700 – CourtListener.com
[7] GNU GPL v3, art. 8 – Termination : “You may not propagate or modify a covered work except as expressly provided under this License. Any attempt otherwise to propagate or modify it is void, and will automatically terminate your rights under this License”
[8] FSF is working on freedom in machine learning applications — Free Software Foundation — Working together for free software
