Retour
Maître Aurélie Testu

Text and Data Mining et propriété intellectuelle

L’intelligence artificielle face aux droits d’auteur

L’essor de l’intelligence artificielle (IA) s’appuie sur une ressource précieuse : les données. Pour entraîner des modèles performants, il est nécessaire d’ingérer d’immenses volumes de textes, d’images, de sons et de vidéos — souvent protégés par le droit d’auteur.

Face à ce constat, le droit français et européen encadrent la fouille de textes et de données (ou Text and Data Mining – TDM), afin de concilier innovation technologique et respect des droits des créateurs.

Mais où se situe la frontière entre utilisation légitime et contrefaçon ? Et que révèle l’exemple récent du Studio Ghibli face à OpenAI ?

 1. Le cadre juridique français et européen

Une exception au droit d’auteur, également applicable aux droits des artistes-interprètes et aux droits des producteurs de phonogrammes, a été mise en place par la directive européenne 2019/790 du 17 avril 2019, dite « directive DAMUN » (Droit d’Auteur dans le Marché Unique Numérique).

Celle-ci a été transposée en droit français.

L’article L. 122-5 du Code de la propriété intellectuelle dispose que « Lorsque l'œuvre a été divulguée, l'auteur ne peut interdire : (…) Les copies ou reproductions numériques d'une œuvre en vue de la fouille de textes et de données réalisée dans les conditions prévues à l'article L. 122-5-3 ».

Cet article L. 122-5-3 prévoit que « II. Des copies ou reproductions numériques d'œuvres auxquelles il a été accédé de manière licite peuvent être réalisées sans autorisation des auteurs en vue de fouilles de textes et de données menées à bien aux seules fins de la recherche scientifique par les organismes de recherche, les bibliothèques accessibles au public, les musées, les services d'archives ou les institutions dépositaires du patrimoine cinématographique, audiovisuel ou sonore, ou pour leur compte et à leur demande par d'autres personnes, y compris dans le cadre d'un partenariat sans but lucratif avec des acteurs privés. (…) III. Sans préjudice des dispositions du II, des copies ou reproductions numériques d'œuvres auxquelles il a été accédé de manière licite peuvent être réalisées en vue de fouilles de textes et de données menées à bien par toute personne, quelle que soit la finalité de la fouille, sauf si l'auteur s'y est opposé de manière appropriée, notamment par des procédés lisibles par machine pour les contenus mis à la disposition du public en ligne. »

Ainsi, deux exceptions au droit d’auteur sont prévues pour permettre la fouille de textes et de données :

  1. Une exception à des fins de recherche scientifique (article L. 122-5-3 II), applicable aux organismes de recherche, bibliothèques, musées ou services d’archives ;
  2. Une exception générale, ouverte à toute personne, y compris aux acteurs privés, sauf opposition expresse de l’auteur (article L. 122-5-3 III).

Ce texte distingue donc deux régimes : l’un réservé à la recherche scientifique, l’autre ouvert à toute personne, sous réserve du droit d’opposition de l’auteur. Autrement dit, le droit français repose sur un mécanisme d’« opt-out » : les auteurs peuvent s’opposer à l’utilisation de leurs œuvres dans le cadre d’opérations de fouille de données, notamment au moyen de balises lisibles par machine pour les contenus diffusés en ligne.

Cette distinction permet de préserver un équilibre entre la liberté d’accès à l’information — essentielle à l’innovation — et la protection économique des ayants droit.

 

2. Le droit d’opposition des auteurs et la position de la SACEM

Le 12 octobre 2023, la SACEM a exercé ce droit d’opposition pour l’ensemble de son répertoire, soit près de 96 millions d’œuvres musicales.

Concrètement, cela signifie que toute utilisation de ces œuvres dans le cadre d’un entraînement d’IA nécessite désormais une autorisation préalable.

Les développeurs d’outils d’IA générative doivent donc obtenir une licence spécifique pour toute fouille de données impliquant ces contenus.

Cette démarche marque une prise de position forte du secteur culturel français face aux grands acteurs de l’IA. Elle s’inscrit dans un mouvement plus large de revalorisation du droit d’auteur à l’ère numérique, où la donnée devient la nouvelle matière première.

3. Des obligations de transparence et de sécurité renforcées

L’article R. 122-27 du Code de la propriété intellectuelle ajoute que « Les personnes effectuant une fouille de textes et de données dans les conditions mentionnées au III de l'article L. 122-5-3 fournissent aux titulaires de droits d'auteur, à la demande de ceux-ci, tous documents et justificatifs permettant d'établir que les copies et reproductions numériques effectuées lors d'une fouille de textes et de données sont stockées avec un niveau de sécurité approprié et qu'elles ont été détruites à l'issue de la fouille de textes et de données. »

Ce dispositif vise à prévenir les dérives et à instaurer une traçabilité des usages.

 

4. Les incertitudes juridiques relevées par l’Autorité de la concurrence

Dans son avis 24-A-05 du 28 juin 2024, l’Autorité de la concurrence (ADLC) a notamment souligné :

« l'entraînement des grands modèles d'IA générative nécessite de grands volumes de données. Celles-ci sont principalement issues de sources publiquement accessibles, comme les pages internet, ou de jeux de données comme les archives Web de Common Crawl, organisation dont l'objectif est de fournir gratuitement des données issues d'Internet depuis 2008. [...] l'accès à certaines données publiquement accessibles soulève des incertitudes juridiques, comme l'illustrent les actions en justice intentées par plusieurs ayants droit, telle la plainte déposée par le New York Times contre OpenAI et Microsoft »

 

5. Le cas Studio Ghibli : une mise en garde venue du Japon

Le débat a récemment pris une nouvelle dimension lorsque plusieurs géants de l’animation japonaise, dont le Studio Ghibli, Bandai Namco et Square Enix, représentés par la Content Overseas Distribution Association (CODA), ont exigé qu’OpenAI cesse d’utiliser leurs œuvres et personnages sans autorisation dans ses modèles, notamment dans Sora 2.

Cette démarche illustre les divergences profondes entre les régimes juridiques :

  • En Europe, l’opt-out permet aux titulaires de droits de s’opposer ;
  • Au Japon, au contraire, aucune exception de type TDM n’existe : toute reproduction d’une œuvre protégée nécessite une autorisation préalable, sous peine de contrefaçon.

Selon la CODA, le modèle proposé par OpenAI — fondé sur le consentement par défaut sauf opposition — n’est pas compatible avec le droit japonais, qui repose sur le principe inverse : le consentement explicite des ayants droit.

À mesure que les IA génératives se développent, le besoin d’un dialogue international devient pressant.
Une clarification des régimes de responsabilité et des mécanismes de consentement est nécessaire.

En conclusion, l’affaire du Studio Ghibli et les prises de position d’organisations comme la SACEM rappellent que les créateurs ne sont pas dépossédés de leurs droits face à l’IA.

L’enjeu n’est pas de bloquer l’innovation, mais de garantir un juste équilibre entre liberté de recherche, progrès technologique et rémunération équitable des auteurs.

Pour les entreprises, chercheurs et développeurs, la prudence s’impose : toute opération de fouille de données doit être documentée, sécurisée et licite.
Pour les auteurs, le droit d’opposition devient un outil essentiel de maîtrise sur l’exploitation de leurs œuvres dans l’univers des intelligences artificielles.