31 octobre 2023

Évaluation de l'impact de la proposition de loi européenne sur l'IA

Les contributeurs
Michiel Van Lerbeirghe
Conseiller juridique
Aucun élément trouvé.
S'abonner à la newsletter
Partager cet article

Comment les fournisseurs de modèles peuvent-ils se conformer à la réglementation concernant les données de formation et les droits d'auteur ?

Les modèles de base jouent un rôle essentiel en tant que fondement de nombreux systèmes avancés d'intelligence artificielle. En termes simples, un modèle de base est un modèle d'IA à grande échelle formé à l'aide de grandes quantités de données, qui sert de base à une spécialisation ou à une application plus poussée dans divers domaines. Les modèles d'IA générative, qui ont la capacité de produire du contenu de manière autonome, qu'il s'agisse de texte (comme ChatGPT), d'images (comme Midjourney), d'audio ou de vidéo, sont un exemple frappant de ce type de systèmes. 

Les modèles d'IA générative, de par leur nature même, s'appuient sur de vastes ensembles de données pour l'apprentissage. Ces ensembles de données contiennent souvent d'énormes quantités d'images, d'extraits de texte et d'autres formes de données recueillies auprès de diverses sources. Le volume et la variété des données que ces modèles consomment peuvent parfois éclipser l'origine des données, dont certaines peuvent être protégées par des droits d'auteur.

La loi européenne sur l'IA vise à réglementer les modèles de base et les systèmes d'IA générative. Conformément à l'une des obligations imposées par la version actuelle de la loi par le Parlement européen (le texte n'est pas encore finalisé), les fournisseurs de modèles de base utilisés dans les systèmes d'IA génératifs doivent "[documenter] les modèles de base utilisés dans les systèmes d'IA génératifs".documenter et faire publiquement publiquement a suffisamment détaillée résumé de l'utilisation l'utilisation des données de formation protégées protégées par le droit d'auteur"(amendement 399, article 28b du texte actuel). En d'autres termes, des sociétés telles qu'OpenAI (en tant que fournisseur de ChatGPT) seraient obligées de documenter et de divulguer les données protégées par le droit d'auteur qu'elles ont utilisées pour entraîner leurs modèles.

L'objectif de l'obligation est clair et logique, à savoir assurer la transparence et veiller à ce que les parties prenantes aient une visibilité sur le fonctionnement de ces systèmes d'IA influents. Cependant, et bien que nous soyons favorables à une plus grande transparence, nous évoquerons dans ce billet deux raisons pour lesquelles l'obligation envisagée pourrait s'avérer une tâche très difficile (pour ne pas dire impossible) pour de nombreuses entreprises travaillant au développement et au déploiement de ce type de modèles :

  1. Le droit d'auteur peut aller très loin et un grand nombre de contenus différents pourraient être protégés par le droit d'auteur (livres, images, extraits de texte, objets de conception, conception d'objets fonctionnels,...). L'obligation créerait donc d'énormes charges administratives pour les fournisseurs de modèles de fondation, étant donné qu'une quantité incroyablement élevée de contenu devrait être documentée et divulguée.

  2. La question de savoir si les conditions de protection du droit d'auteur sont remplies ou non est subjective, ce qui rend l'applicabilité de la protection du droit d'auteur imprévisible. En outre, les fournisseurs de modèles de fondation ne sont pas les mieux placés pour déterminer si les conditions sont remplies ou non.

Étant donné que les conséquences du non-respect de cette obligation pourraient conduire à des sanctions sévères, nous pensons que, si la disposition était effectivement acceptée, il faudrait davantage d'orientations sur la manière dont les fournisseurs de modèles de fondation peuvent se conformer à cette obligation. 

Les droits d'auteur peuvent avoir une grande portée

La protection du droit d'auteur s'applique aux"œuvres d'art et de littérature", qui est un concept autonome du droit de l'Union devant être interprété uniformément dans l'ensemble de l'Union européenne.

Pour l'interprétation du terme, il faut se référer à la jurisprudence de la Cour de justice de l'Union européenne ("CJUE"). Selon cette jurisprudence, on peut parler d'œuvre protégée lorsque deux conditions sont réunies : (1) l'œuvre doit être originale et (2) il doit y avoir une expression (par exemple CJUE 12 septembre 2019, Cofemel, C-683/17, point 29) :

  1. Tout d'abord, la notion d'œuvre implique l'existence d'un objet original, au sens d'une création intellectuelle propre à l'auteur.

Il résulte de la jurisprudence constante de la Cour que, pour qu'un objet puisse être considéré comme original, il faut et il suffit que cet objet reflète la personnalité de son auteur, en tant qu'expression de ses choix libres et créatifs (voir, par exemple, CJUE 1er décembre 2011, Painer, C-145/10, points 88, 89 et 94).

  1. En second lieu, la qualification d'œuvre est réservée aux éléments qui sont l'expression de cette création intellectuelle. Il doit être possible d'identifier clairement et précisément le sujet, sans qu'il y ait un élément de subjectivité. Cette condition est par exemple la raison pour laquelle " un goût " ne peut pas être protégé par le droit d'auteur, car un goût sera subjectif, et ne pourra pas être objectivement identifié (CJUE 13 novembre 2018, Levola Hengelo, C-310/17, points 33 et 35 à 37).

Lorsque l'objet satisfait à ces deux conditions européennes, il est protégé par le droit d'auteur. Ces conditions sont suffisantes, ce qui implique qu'aucune autre condition ne peut être imposée pour la protection, rendant des termes tels que "nouveauté", "inventivité", "caractère esthétique ou artistique" ou "un certain niveau d'effort ou d'expertise" non pertinents pour déterminer si l'objet est protégé par le droit d'auteur ou non. 

Conformément à ces conditions européennes, de nombreux objets peuvent être considérés comme des œuvres au sens de la loi sur le droit d'auteur. Des exemples tirés de la jurisprudence prouvent que la protection du droit d'auteur peut aller très loin et que le concept d'"œuvre" est interprété de manière large (outre les objets évidents tels que les livres, les images, les œuvres musicales, les vidéos, etc :)

  • Par exemple, un tribunal belge a déjà jugé qu'un guide d'utilisation du matériel informatique était protégé par le droit d'auteur (Cour d'appel de Bruxelles, 28 janvier 1997).

  • Or, selon la CJUE, onze mots consécutifs peuvent potentiellement constituer une "œuvre" et donc être protégés par le droit d'auteur (CJUE 16 juillet 2009, Infopaq, C-5/08).

  • Par ailleurs, la conception d'objets très fonctionnels peut également être considérée comme une œuvre d'art et de littérature. Par exemple, dans la jurisprudence, il a été jugé que le dessin illustré ci-dessous (le support d'un gaufrier) était protégé par le droit d'auteur (Cour d'appel de Bruxelles, 25 octobre 2011, n° 2011/AR/119) :

L'étendue de la protection a pour conséquence que l'obligation envisagée par la loi sur la propriété intellectuelle pourrait être très étendue, ce qui entraînerait des charges administratives considérables. Par exemple, s'il existe une image d'un objet fonctionnel, il se pourrait que (i) l'image en tant que telle soit protégée par le droit d'auteur ainsi que (ii) le dessin ou modèle de l'objet fonctionnel. 

Il va sans dire qu'un fournisseur de systèmes d'IA générative aurait une tâche énorme à accomplir pour documenter et divulguer les informations concernant l'objet protégé par le droit d'auteur, sachant qu'un système d'IA générative peut être entraîné sur des millions d'images, d'extraits de texte, de dessins, de livres, ....

Le droit d'auteur est subjectif

En outre, il est important de noter que le droit d'auteur existe dès la création et sans enregistrement, ce qui signifie qu'il n'existe pas non plus de registre des droits d'auteur que les fournisseurs de systèmes d'IA générative pourraient consulter pour vérifier si certaines données sont ou non protégées par le droit d'auteur.

Dans la pratique, il appartiendra à un juge (généralement dans le cadre d'un litige) de décider si une œuvre donnée remplit ou non les conditions. Ce faisant, il incombe également au prétendu titulaire du droit de prouver que l'objet du droit est une œuvre d'art et de littérature.

Nous constatons qu'il y a beaucoup de subjectivité dans l'interprétation des conditions, ce qui rend imprévisible l'applicabilité de la protection du droit d'auteur.

Les exemples suivants montrent que l'évaluation peut aller dans les deux sens :

  • Dans une affaire concernant des photos de joueurs de football et de matchs de football (photos de portraits, photos de joueurs en action, photos des stades et de l'ambiance), la cour d'appel de Bruxelles a jugé que ces types de photos étaient protégés par le droit d'auteur parce que le photographe a pu faire plusieurs choix libres et créatifs concernant les photos, par exemple en ce qui concerne l'angle de la photo, le point de vue, l'éclairage, le moment de la photo, le réglage de l'appareil photo et ainsi de suite. Le photographe a donc fait des " choix libres et créatifs " en réalisant les images, ce qui signifie que celles-ci étaient originales (Cour d'appel de Bruxelles, 3 octobre 2017, n° 2013/AR/860).

  • Dans une autre affaire cependant, la cour d'appel de Gand a jugé que les images utilisées sur un site web immobilier spécifique ainsi que les textes d'accompagnement décrivant les propriétés n'étaient pas protégés par le droit d'auteur. La cour a jugé que les images pouvaient potentiellement être protégées mais que l'originalité n'avait pas été prouvée dans ce cas précis (Cour d'appel de Gand, 25 juin 2018, n° 2016/AR/470).

  • Et même pour un même sujet, un tribunal différent peut avoir un avis différent, par exemple : 

  • Plusieurs tribunaux ont déjà jugé que le dessin du sac à main Le Pliage de Longchamp était protégé par le droit d'auteur (notamment Cour d'appel de Bruxelles, le 18 mai 2006, n° 2003/AR/880 et le 20 avril 2012, n° 2012/AR/2910), tandis qu'il existe également une jurisprudence selon laquelle le dessin n'est pas protégé (Cour d'appel de Gand, le 20 octobre 2014, n° 2013/AR/1945).

  • En ce qui concerne l'objet suivant, il a été jugé en première instance que le dessin était protégé par le droit d'auteur (tribunal de commerce de Gand, 11 janvier 2018, n° A/16/02910), alors que la cour d'appel a jugé qu'il ne l'était pas (cour d'appel de Gand, 1er février 2021, n° 2018/AR/254) :

Les exemples ci-dessus montrent qu'il y a beaucoup de subjectivité en ce qui concerne la protection des droits d'auteur, et que même l'opinion des juges peut varier en la matière. 

De toute évidence, si même les opinions des juges peuvent varier, il est très difficile pour un fournisseur de systèmes d'IA générative d'évaluer si certaines données sont ou non protégées par le droit d'auteur. D'autant plus qu'il n'existe pas de registre des droits d'auteur permettant de le vérifier. 

Conclusion

Il va sans dire que nous sommes favorables à une plus grande transparence des données pour les fournisseurs de modèles de fondations. Par exemple, nous soutenons pleinement l'idée de réglementer les modèles de fondations et les obligations de transparence envisagées pour divulguer les calculs (taille du modèle, puissance de l'ordinateur, temps de formation), les capacités et les limites du modèle, les résultats des tests internes et externes, etc. Cependant, et bien que la disposition sur la transparence concernant le matériel protégé par le droit d'auteur soit également logique, nous pensons que la disposition actuelle est difficile à respecter d'un point de vue pratique pour les raisons mentionnées dans ce billet de blog.

Si cette disposition était effectivement mise en œuvre, nous pensons qu'il faudrait davantage d'orientations sur la manière dont les fournisseurs peuvent effectivement respecter l'obligation prévue par la loi sur l'IA. 

En outre, il serait souhaitable d'obtenir davantage d'indications sur la manière dont il convient d'interpréter le concept de "résumé suffisamment détaillé". La question se pose de savoir dans quelle mesure la divulgation doit être suffisamment détaillée et ce que l'on entend par "résumé".

L'importance et le besoin d'orientations sont évidents, car le non-respect des nouvelles dispositions peut exposer les fournisseurs de systèmes d'IA générative à des responsabilités si les résumés concernant les ensembles de données d'entraînement sont insuffisants. Le non-respect de ces obligations d'information peut entraîner des amendes potentielles allant jusqu'à 10 millions d'euros ou 2 % du chiffre d'affaires annuel, le montant le plus élevé étant retenu.

Postes connexes

Voir tout le contenu
Aucun résultat n'a été trouvé.
Il n'y a pas de résultats correspondant à ces critères. Essayez de modifier votre recherche.
Grand modèle linguistique
Modèles de fondation
Entreprise
Personnes
Données Structurées
Chat GPT
Durabilité
Voix et son
Développement frontal
Protection des données et sécurité
IA responsable/éthique
Infrastructure
Hardware et capteurs
MLOps
IA générative
Natural Language Processing
Vision par ordinateur