ChatGPT et d'autres LLM ont pris le monde d'assaut. En conséquence, les équipes chargées de la conformité et de la sécurité de l'information ont également été submergées par cette nouvelle technologie. L'utilisation de ChatGPT a un impact important sur les réglementations en matière de protection de la vie privée, telles que le GDPR, la conformité et la sécurité de l'information en général. C'est un aspect qui est souvent négligé dans les entreprises, avec toutes les conséquences désastreuses que cela implique. La récente (mauvaise) utilisation de ces outils a entraîné des violations de données dans de nombreuses entreprises, comme Samsung, où des secrets commerciaux cruciaux ont été divulgués par le ChatGPT d'OpenAI.
Dans cet article de blog, vous apprendrez à tirer parti des fonctionnalités étonnantes de ChatGPT sans provoquer une violation massive des données au sein de votre entreprise.
Avec la configuration par défaut de ChatGPT, vous courez le plus de risques pour les deux raisons suivantes.
Tout d'abord, OpenAI stockera tout le contenu (messages et réponses) afin d'améliorer ses modèles. Cela signifie que toutes les données transmises à ChatGPT resteront à jamais sur leurs serveurs. C'est quelque chose que vous voulez absolument éviter lorsque vous travaillez avec des données sensibles telles que des secrets d'entreprise ou des informations personnelles (principe de limitation de stockage dans le GDPR).
Un deuxième risque se pose pour les entreprises qui ne sont pas basées aux États-Unis, car tout le contenu est traité et stocké aux États-Unis. Cette situation est particulièrement problématique lorsqu'il s'agit de traiter des données à caractère personnel à la lumière de l'arrêt Schrems II. Il a été jugé que les pratiques de surveillance américaines n'assuraient pas une protection suffisante des données des résidents de l'UE, ce qui rendait illégal le transfert de données à caractère personnel vers les États-Unis.
Le premier problème peut simplement être résolu en désactivant le paramètre de partage des données avec le ChatGPT d'OpenAI à des fins de formation :
Le contenu (et les données personnelles) restera dans les systèmes d'OpenAI pendant 30 jours pour contrôler les abus. Vous aurez toujours du mal à vendre cela à votre délégué à la protection des données, mais les risques sont néanmoins fortement réduits.
Il en va de même pour le partage de secrets commerciaux avec ChatGPT. Il vaut mieux qu'ils soient là pour 30 jours que pour toujours, mais ce n'est toujours pas une bonne idée.
Une façon plus respectueuse de la conformité et de la vie privée d'utiliser les modèles GPT consiste à utiliser directement les API d'OpenAI. Depuis le 1er mars 2023, OpenAI n'utilise plus les invites et les réponses pour améliorer les modèles.
En termes de protection des données personnelles, OpenAI offre une "fonctionnalité" importante : vous pouvez demander à OpenAI de modifier les conditions normales de service avec leur Data Processing Addendum. Comme on peut s'y attendre avec les grandes entreprises technologiques américaines, il n'est pas possible d'imposer votre propre accord de traitement des données à OpenAI et vous êtes coincé avec leur version. Néanmoins, un accord sur le traitement des données est une exigence importante du GDPR pour partager des données personnelles avec des "sous-traitants" tels qu'OpenAI. Il comprend même des clauses contractuelles types, un mécanisme qui peut être utilisé pour envoyer légitimement des données aux États-Unis, mais une évaluation plus approfondie est nécessaire pour déterminer si les clauses contractuelles types sont suffisantes.
L'étape suivante, et actuellement l'étape finale, vers une utilisation des modèles GPT respectueuse de la conformité et de la vie privée est actuellement l'utilisation du service Azure OpenAI.
Azure OpenAI Service permet de contrôler au maximum les invites et les réponses générées par les modèles GPT-3/4.
Par défaut, les invites et les réponses sont temporairement stockées par le service Azure OpenAI dans la même région que la ressource pour une durée maximale de 30 jours. Ces données sont utilisées à des fins de débogage et pour enquêter sur les abus ou les mauvaises utilisations du service. Il est possible d'envoyer une demande à Microsoft pour ne pas stocker les invites et les réponses.
Pour GPT-3.0, la région peut être les États-Unis ou l'Europe, pour GPT-3.5 ou 4.0, seulement les États-Unis pour le moment.
(Note : Entre-temps, GPT-3.5 ou 4.0 sont disponibles aux États-Unis et en Europe)
En termes de protection des données, vous pouvez vous appuyer sur l'accord de traitement des données par défaut, y compris les clauses contractuelles standard, fournies par Azure. Azure faisant partie de Microsoft, dont le siège est aux États-Unis et qui est donc une organisation internationale, l'utilisation du service Azure oOpenAI est toujours considérée comme un transfert de données à caractère personnel en dehors de l'UE.
(Note : entre-temps, en juillet 2023, la Commission européenne a adopté sa décision d'adéquation pour le cadre de protection des données UE-États-Unis, ce qui signifie que les données personnelles peuvent circuler librement de l'UE vers les entreprises américaines participant au cadre (y compris Azure/Microsoft), sans avoir à mettre en place des mesures supplémentaires de protection des données).
Mais d'un point de vue technique, il n'y a aucune différence entre l'utilisation des API du service Azure OpenAI et l'utilisation d'une machine virtuelle Azure. Ainsi, pour les entreprises qui ont déjà accepté le risque d'utiliser des organisations internationales pour traiter des données, c'est-à-dire en fait toutes les entreprises, aucun nouveau risque n'est introduit.
Le fait que les ressources puissent être situées dans l'UE, qu'un accord sur le traitement des données avec des clauses contractuelles types soit en place et que les invites et les réponses ne soient pas stockées (si la demande est approuvée par Microsoft) sur les systèmes Azure fait d'Azure OpenAI le moyen le plus simple de minimiser les risques en matière de sécurité de l'information et de conformité lors de l'utilisation de modèles GPT, même avec des données à caractère personnel.