Les modèles de base jouent un rôle essentiel en tant que fondement de nombreux systèmes avancés d'intelligence artificielle. En termes simples, un modèle de base est un modèle d'IA à grande échelle formé à l'aide de grandes quantités de données, qui sert de base à une spécialisation ou à une application plus poussée dans divers domaines. Les modèles d'IA générative, qui ont la capacité de produire du contenu de manière autonome, qu'il s'agisse de texte (comme ChatGPT), d'images (comme Midjourney), d'audio ou de vidéo, sont un exemple frappant de ce type de systèmes.
Les modèles d'IA générative, de par leur nature même, s'appuient sur de vastes ensembles de données pour l'apprentissage. Ces ensembles de données contiennent souvent d'énormes quantités d'images, d'extraits de texte et d'autres formes de données recueillies auprès de diverses sources. Le volume et la variété des données que ces modèles consomment peuvent parfois éclipser l'origine des données, dont certaines peuvent être protégées par des droits d'auteur.
La loi européenne sur l'IA vise à réglementer les modèles de base et les systèmes d'IA générative. Conformément à l'une des obligations imposées par la version actuelle de la loi par le Parlement européen (le texte n'est pas encore finalisé), les fournisseurs de modèles de base utilisés dans les systèmes d'IA génératifs doivent "[documenter] les modèles de base utilisés dans les systèmes d'IA génératifs".documenter et faire publiquement publiquement a suffisamment détaillée résumé de l'utilisation l'utilisation des données de formation protégées protégées par le droit d'auteur"(amendement 399, article 28b du texte actuel). En d'autres termes, des sociétés telles qu'OpenAI (en tant que fournisseur de ChatGPT) seraient obligées de documenter et de divulguer les données protégées par le droit d'auteur qu'elles ont utilisées pour entraîner leurs modèles.
L'objectif de l'obligation est clair et logique, à savoir assurer la transparence et veiller à ce que les parties prenantes aient une visibilité sur le fonctionnement de ces systèmes d'IA influents. Cependant, et bien que nous soyons favorables à une plus grande transparence, nous évoquerons dans ce billet deux raisons pour lesquelles l'obligation envisagée pourrait s'avérer une tâche très difficile (pour ne pas dire impossible) pour de nombreuses entreprises travaillant au développement et au déploiement de ce type de modèles :
Étant donné que les conséquences du non-respect de cette obligation pourraient conduire à des sanctions sévères, nous pensons que, si la disposition était effectivement acceptée, il faudrait davantage d'orientations sur la manière dont les fournisseurs de modèles de fondation peuvent se conformer à cette obligation.
La protection du droit d'auteur s'applique aux"œuvres d'art et de littérature", qui est un concept autonome du droit de l'Union devant être interprété uniformément dans l'ensemble de l'Union européenne.
Pour l'interprétation du terme, il faut se référer à la jurisprudence de la Cour de justice de l'Union européenne ("CJUE"). Selon cette jurisprudence, on peut parler d'œuvre protégée lorsque deux conditions sont réunies : (1) l'œuvre doit être originale et (2) il doit y avoir une expression (par exemple CJUE 12 septembre 2019, Cofemel, C-683/17, point 29) :
Il résulte de la jurisprudence constante de la Cour que, pour qu'un objet puisse être considéré comme original, il faut et il suffit que cet objet reflète la personnalité de son auteur, en tant qu'expression de ses choix libres et créatifs (voir, par exemple, CJUE 1er décembre 2011, Painer, C-145/10, points 88, 89 et 94).
Lorsque l'objet satisfait à ces deux conditions européennes, il est protégé par le droit d'auteur. Ces conditions sont suffisantes, ce qui implique qu'aucune autre condition ne peut être imposée pour la protection, rendant des termes tels que "nouveauté", "inventivité", "caractère esthétique ou artistique" ou "un certain niveau d'effort ou d'expertise" non pertinents pour déterminer si l'objet est protégé par le droit d'auteur ou non.
Conformément à ces conditions européennes, de nombreux objets peuvent être considérés comme des œuvres au sens de la loi sur le droit d'auteur. Des exemples tirés de la jurisprudence prouvent que la protection du droit d'auteur peut aller très loin et que le concept d'"œuvre" est interprété de manière large (outre les objets évidents tels que les livres, les images, les œuvres musicales, les vidéos, etc :)
L'étendue de la protection a pour conséquence que l'obligation envisagée par la loi sur la propriété intellectuelle pourrait être très étendue, ce qui entraînerait des charges administratives considérables. Par exemple, s'il existe une image d'un objet fonctionnel, il se pourrait que (i) l'image en tant que telle soit protégée par le droit d'auteur ainsi que (ii) le dessin ou modèle de l'objet fonctionnel.
Il va sans dire qu'un fournisseur de systèmes d'IA générative aurait une tâche énorme à accomplir pour documenter et divulguer les informations concernant l'objet protégé par le droit d'auteur, sachant qu'un système d'IA générative peut être entraîné sur des millions d'images, d'extraits de texte, de dessins, de livres, ....
En outre, il est important de noter que le droit d'auteur existe dès la création et sans enregistrement, ce qui signifie qu'il n'existe pas non plus de registre des droits d'auteur que les fournisseurs de systèmes d'IA générative pourraient consulter pour vérifier si certaines données sont ou non protégées par le droit d'auteur.
Dans la pratique, il appartiendra à un juge (généralement dans le cadre d'un litige) de décider si une œuvre donnée remplit ou non les conditions. Ce faisant, il incombe également au prétendu titulaire du droit de prouver que l'objet du droit est une œuvre d'art et de littérature.
Nous constatons qu'il y a beaucoup de subjectivité dans l'interprétation des conditions, ce qui rend imprévisible l'applicabilité de la protection du droit d'auteur.
Les exemples suivants montrent que l'évaluation peut aller dans les deux sens :
Les exemples ci-dessus montrent qu'il y a beaucoup de subjectivité en ce qui concerne la protection des droits d'auteur, et que même l'opinion des juges peut varier en la matière.
De toute évidence, si même les opinions des juges peuvent varier, il est très difficile pour un fournisseur de systèmes d'IA générative d'évaluer si certaines données sont ou non protégées par le droit d'auteur. D'autant plus qu'il n'existe pas de registre des droits d'auteur permettant de le vérifier.
Il va sans dire que nous sommes favorables à une plus grande transparence des données pour les fournisseurs de modèles de fondations. Par exemple, nous soutenons pleinement l'idée de réglementer les modèles de fondations et les obligations de transparence envisagées pour divulguer les calculs (taille du modèle, puissance de l'ordinateur, temps de formation), les capacités et les limites du modèle, les résultats des tests internes et externes, etc. Cependant, et bien que la disposition sur la transparence concernant le matériel protégé par le droit d'auteur soit également logique, nous pensons que la disposition actuelle est difficile à respecter d'un point de vue pratique pour les raisons mentionnées dans ce billet de blog.
Si cette disposition était effectivement mise en œuvre, nous pensons qu'il faudrait davantage d'orientations sur la manière dont les fournisseurs peuvent effectivement respecter l'obligation prévue par la loi sur l'IA.
En outre, il serait souhaitable d'obtenir davantage d'indications sur la manière dont il convient d'interpréter le concept de "résumé suffisamment détaillé". La question se pose de savoir dans quelle mesure la divulgation doit être suffisamment détaillée et ce que l'on entend par "résumé".
L'importance et le besoin d'orientations sont évidents, car le non-respect des nouvelles dispositions peut exposer les fournisseurs de systèmes d'IA générative à des responsabilités si les résumés concernant les ensembles de données d'entraînement sont insuffisants. Le non-respect de ces obligations d'information peut entraîner des amendes potentielles allant jusqu'à 10 millions d'euros ou 2 % du chiffre d'affaires annuel, le montant le plus élevé étant retenu.