default-exper
auteurs
Juliette Robin Vernay Avocate Directrice Associée
Mathilde Ponchel Avocate Associée
Parole d'expert
14 mars 2025

IA et droit d’auteur : quels droits sur les données qui entrainent le système d’IA ?

Le data mining est-il une exception au droit auteur pertinente pour alimenter librement un modèle d’intelligence artificielle ?

Dans une décision du 27 septembre 2024, le Tribunal régional de Hambourg a rendu la première décision concernant l’application des deux exceptions de data mining (fouille de données).

Pour le tribunal d’Hambourg, l’association LAION qui avait utilisé le travail d’un photographe sans son accord, pouvait légitimement invoquer cette exception de data mining, dans la mesure où elle mettait à disposition gratuitement sa base de données. 

L’association ne poursuivait pas d’objectifs commerciaux, même si sa base de données peut être réutilisée par des organisations commerciales.

Le tribunal en conclut à l’absence de violation par cette dernière du droit d’auteur du photographe Robert Kneschke.

Les textes sur le sujet :

  • C’est la Directive de l’UE n° 2019/790 de 2019 sur le droit d’auteur et les droits voisins qui vient nous renseigner : avec deux  exceptions de fouille de données ou datamining

 

-Articles 3 et 4 : Exception au droit d’auteur : la Fouille de textes ou de données à des fins scientifiques ou commerciales

Cette directive autorise librement les reproductions et les extractions d’œuvres protégées pour des activités de recherche scientifique et, dans certains cas, à des fins commerciales. 

Article 3 §1 – « 1. Les États membres prévoient une exception aux droits prévus à l'article 5, point a), et à l'article 7, paragraphe 1, de la directive 96/9/CE, à l'article 2 de la directive 2001/29/CE et à l'article 15, paragraphe 1, de la présente directive pour les reproductions et les extractions effectuées par des organismes de recherche et des institutions du patrimoine culturel, en vue de procéder, à des fins de recherche scientifique, à une fouille de textes et de données sur des œuvres ou autres objets protégés auxquels ils ont accès de manière licite. »

-Une exception à l’exception si vous n’êtes pas dans la fouille de données à des fins de recherche scientifique ! L’OPT-OUT (adapté dans le droit français à l’art.L.122-5-3-III du CPI) 

 

Article 4 (adapté en droit français à l’art. L122-5-3-III du CPI) : « L'exception ou la limitation prévue au paragraphe 1 s'applique à condition que l'utilisation des œuvres et autres objets protégés visés audit paragraphe n'ait pas été expressément réservée par leurs titulaires de droits de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne ».

Le décret du 23 juin 2022 (Art. R. 122-28 du CPI) précise que cet « opt out » n’a pas à être motivé et peut être exprimé par tout moyen (en précisant pour les contenus mis en ligne : « au moyen de procédés lisibles par machine, y compris des métadonnées, et par le recours à des conditions générales d’utilisation d’un site internet ou d’un service. »)

  • l’IA Act (Règlement n° 2024/1689 de Juin 2024) se concentre sur la question de la sécurité des utilisateurs et du respect de leurs droits et libertés fondamentaux.

Autrement dit, la question de la propriété intellectuelle est uniquement abordée de manière très générale. L’IA Act fait notamment référence à la Directive de l’UE de 2019 sur le droit d’auteur et les droits voisins et vient confirmer l’application de l’exception de la fouille de données et de datamining aux systèmes d’Intelligence Artificielle. 

L’IA Act vient renforcer la législation autour de cette exception en obligeant notamment les fournisseurs de modèles d’IA à usage général à respecter le droit de l’Union en matière de droit d’auteur et de droits voisins, notamment par la mise en place d’une politique permettant d’identifier et respecter l’opt out : 

Article 53 : Obligations des fournisseurs de modèles d'IA à usage général

« (c) mettre en place une politique visant à respecter le droit de l'Union en matière de droit d'auteur et de droits voisins, et en particulier à identifier et à respecter, y compris au moyen de technologies de pointe, une réserve de droits exprimée conformément à l'article 4, paragraphe 3, de la directive (UE) 2019/790 [opt out) »

S’agissant des données d’entrainement, obligation de mettre à la disposition du public un résumé suffisamment détaillé du contenu utilisé pour entrainer les modèles d’IA à usage général.

Cependant, ces obligations de transparence et de respect des droits d’auteur prévues par l’IA Act ne semblent s’appliquer qu’aux fournisseurs de modèles d’Intelligence Artificielle et non aux entités responsables de la création de bases de données d’entrainement. 

En effet, de telles entités ont récemment été considérées comme bénéficiant de l’exception de fouille de données ou datamining en conséquence d’une analyse extensive de la notion de recherche scientifique : 

  • En Allemagne : Tribunal de Hambourg 27/09/2024 - le photographe Robert Knechke, qui reproche à la plate-forme LAION (organisation à but non lucratif allemande connue pour mettre à disposition des sets d’entrainement) d’avoir intégré sa photographie au sein de sa base de données qui étaient par la suite utilisée par des fournisseurs de modèles d’IA.

LAION ne conteste pas qu’elle a reproduit cette photographie, mais elle revendique le bénéfice de l’exception de la fouille de données qui est prévu à l’article 3 et 4 de la Directive de 2019. 

Les Tribunaux vont se ranger du côté de LAION puisqu’ils vont considérer que le développement d’une base de données entre bien dans le champ de la directive :  

La première exception prévoit notamment la possibilité pour les organismes de recherche et les institutions du patrimoine culturel de réaliser des fouilles de textes et de données à des fins de recherche scientifique sur des œuvres ou autres objets protégés auxquels ils ont accès de manière licite, et ce sans avoir à demander l’autorisation des titulaires de droits. 

La deuxième exception prévoit quant à elle la possibilité d’effectuer de telles fouilles pour toute fin (y compris commerciale), à la condition que le titulaire des droits n’ait pas réservé ses droits (et donc procédé à ce qui est communément appelé un « opt-out »). 

En l’espèce, la plateforme de mise à disposition de photographies et illustrations à titre onéreux prohibait de manière explicite la reproduction non autorisée. Par conséquent, LAION n’aurait pu se prévaloir de la seconde exception de fouilles de données. 

Néanmoins, le tribunal a jugé que la création d’un dataset constituait une activité de recherche scientifique, même si celui-ci pouvait par la suite être utilisé par des entités commerciales. Les juges ont notamment constaté que la collecte de données par LAION, puis la mise à disposition libre du dataset, notamment pour des structures de recherche, pouvait constituer l’une des étapes plus générale du processus de recherche scientifique, quand bien même le dataset n’aboutirait pas, en lui-même, à un gain de connaissances nouvelles. Il en résulte que LAION pouvait donc bénéficier de la première exception de fouille de textes et de données à des fins de recherche scientifique. 

D’après ce jugement rendu par un tribunal allemand, une entité telle que LAION, développant des bases de données pouvant être utilisées par des fournisseurs de systèmes d’Intelligence Artificielle, pourrait ainsi bénéficier de l’exception de fouille de données, lui permettant de reproduire des œuvres sans l’autorisation de leur titulaire, et ce sans être contraint à mettre en place de politique de respect des réserves de droits d’auteur et de transparence.

  • Aux Etats-Unis, une première décision vient ouvrir la voie à l’indemnisation des ayants-droits

Un tribunal du Delaware a rendu, le 11 février dernier, une décision en faveur de Thomson Reuters qui reprochait à la société Ross Intelligence de s’être servie de sa plateforme de recherche et de contenu juridique, appelée « Westlaw », pour entraîner son modèle d’IA. 

Ross Intelligence faisait valoir que l’entraînement d’une IA tombait sous l’exception du « faire use » ou usage équitable, qui accorde le droit, à certaines conditions, de réutiliser du contenu protégé par le droit d’auteur.

Néanmoins, le juge a retenu que le « faire use » ne pouvait s’appliquer à l’utilisation faite par Ross Intelligence, notamment en ce qu’elle avait l’intention de développer un concurrent juridique à la plateforme juridique de Thomson Reuters, et conclut ainsi à la violation des droits d’auteur. 

Bien que cette décision ne vienne pas impacter la situation jurisprudentielle européenne, elle souligne l’importance de la question de la réutilisation de contenus protégés pour entraîner les modèles d’intelligence artificielle.

  • Par ailleurs, nous attendons que les tribunaux se prononcent dans l’affaire Getty Images. v. Stability AI :

Le 3 février 2023, Getty Images Inc. a déposé une plainte devant la Cour du Delaware aux Etats-Unis à l’encontre des sociétés Stability AI, LTD., Stability Ai, Inc., et Stability AI US Services Corporation (ci-après « Stability AI »), accusant ces dernières d’avoir copié sans autorisation ou compensation financière plus de 12 millions de photographies issues de sa collection, ainsi que les légendes et métadonnées associées, et ce afin de développer leur système d’IA générative, Stability Diffusion. 

Getty Images est une agence de photographie et a constitué une banque d'images américaine, réputée pour sa base de données, comprenant plus de 447 millions de photographies et vidéos. Les utilisateurs peuvent acquérir des licences pour utiliser ce contenu, certaines photographies étant disponibles gratuitement pour une utilisation non-commerciale.

En ce sens, les Termes et Conditions d’utilisation de Getty Images interdisent expressément le téléchargement, copie ou transmission de son contenu sans licence d’autorisation ainsi que le « data mining » ou tout autre méthode de collecte et d’extraction de données. En dépit de cela, Getty Images a pu constater que son contenu avait été utilisé comme données d’entrainement par Stability AI. 

Selon Getty Images, Stability AI se serait basé sur un jeu de données compilé par l’association LAION et comprenant les liens vers des milliards de contenus présents sur le web. Stability AI aurait alors suivi ces liens et copié des fichiers appartenant à Getty Images. 

Getty Image allègue ainsi d’une violation de ses droits d’auteur, de contrefaçon, de dilution et ternissement de sa marque ainsi que de concurrence déloyale.

  • La violation de ses droits d’auteur  

Getty Image fait valoir que la majorité des photographies et images présentes sur son site web sont originales et bénéficient de la protection par le droit d’auteur et que celles-ci, ainsi que leurs titres et légendes, auraient été copiés par Stability AI. 

  • La contrefaçon, dilution et ternissement de sa marque 

Getty Images est titulaire de nombreuses marques GETTY IMAGES apposées sur ses photographies. 

Ces marques apparaissent néanmoins sur des images générées par l’IA Stability Diffusion, qui ne sont ainsi pas la propriété de Getty Images.. De plus, les photos sur lesquelles apparaissent les marques étant parfois de mauvaise qualité, ou même absurdes, Getty Images considère que cette utilisation porte atteinte à sa réputation.  

  • La concurrence déloyale et les pratiques commerciales trompeuses 

Getty Images fait valoir qu’en utilisant ses droits de propriété intellectuelle, Stability AI créé la fausse impression que Getty Images a donné son autorisation à une telle utilisation ou est en relation commerciale avec Stability AI. 

En conséquence Getty Images requiert la destruction de toutes les versions de Stability Diffusion entraînées sur la base de ses contenus ainsi que des dommages et intérêts pour le préjudice subi et les profits réalisés par Stability AI grâce à ces violations. 

Une plainte similaire a par ailleurs été déposée au Royaume-Uni par Getty Images à l’encontre de Stability AI, le procès devant se dérouler en 2025. 

A ce titre, la Haute Cour de Justice a considéré qu’un des demandeurs, agissant comme représentant des titulaires de droits d’auteur ayant conclu avec Getty Images des licences exclusives et dont certaines œuvres avaient été utilisées par Stability AI, est irrecevable à agir. 

La Cour a considéré qu’il n’était pas possible d’identifier clairement les personnes appartenant à ce groupe de titulaires dont les droits ont été violées puisque la définition du groupe dépend de l’issue de la procédure, à savoir si les œuvres ont effectivement été utilisées par le défendeur et ainsi si leur droit d’auteur a été violé. Aucune liste définitive des œuvres utilisées pour entrainer l’IA ne pouvant être élaborée, il était impossible d’identifier quelle personne pouvait faire partie du groupe représenté. 

Bien que cette décision ne porte que sur des questions de procédure, elle souligne la difficulté d’identifier clairement les œuvres utilisées par les modèles d’Intelligence Artificielle et ainsi permettre aux auteurs de faire valoir leurs droits.  

Enfin, une autre affaire, engagée par des illustrateurs et artistes contre Stability AI et d’autres fournisseurs de systèmes d’Intelligence Artificielle, est en cours. 

Nous suivons de près ces affaires, qui soulignent la difficulté d’identifier clairement les contenus utilisés par les modèles d’intelligence artificielle 

Pour l’instant, il est délicat de dessiner une tendance nette de la position retenue par les différents tribunaux européens. La décision rendue par le juge d’Hambourg marque une première piste d’exploration en retenant une interprétation large de l’exception de fouille de texte ou de données, dont il n’est pas certain qu’elle serait adoptée par un juge français, compte tenu de l’obligation, en droit français, d’interpréter des exceptions de manière stricte.

Il faudra analyser les contours de l’autorisation de la Fouille de textes ou de données à des fins scientifiques, et dès que l’on se situera dans une Fouille de textes ou de données à des fins commerciales, les auteurs pourront faire jouer leur possibilité de dire non à condition d’avoir anticipé et d’avoir mis en place un OPT’OUT. Prochain sujet de notre saga sur l’IA.

En France, la question a fait débat lors du Sommet sur l’IA et près de 35 000 artistes viennent de signer une tribune, dans laquelle ils s’inquiètent des effets de l’IA sur leurs métiers. 

Emmanuel Macron a utilisé les termes de « Far West » dans la presse régionale. « La France continuera d’avoir une voix claire, c’est-à-dire celle qui protège la spécificité du génie, du talent, la reconnaissance des droits, de cette propriété », y a-t-il déclaré.

Les défenseurs du droit d’auteur ne peuvent que souhaiter que l’on demande leur autorisation aux créateurs d’œuvres et respecter leur droit d’opposition (« opt-out ») et qu’ils soient rémunérés pour cela.