6 septembre 2022

Débloquer les cas d'utilisation du ML qui manquent de données (utilisables)

Les contributeurs
Matthias Feys
Q / CTO
Aucun élément trouvé.
S'abonner à la newsletter
Partager cet article

Dans cette série d'articles de blog, nous examinons l'importance des données pour la construction de modèles de ML performants. Le thème de notre premier article de blog (à consulter ici si vous ne l'avez pas encore fait) portait sur la manière de libérer tout le potentiel des données, en examinant en particulier l'étiquetage des données, la qualité des données et l'augmentation des données.

Mais que faire si l'on ne dispose pas encore de données utilisables ou si l'on n'en a pas suffisamment pour commencer ? Une option évidente est de collecter (plus) de données. Mais aujourd'hui, nous voulons aller plus loin. Nous allons examiner trois autres dimensions qui peuvent être pertinentes pour débloquer les cas d'utilisation de la ML : la protection des données, les données externes et les données synthétiques.

Protection des données

En quoi la protection des données est-elle pertinente pour nous permettre de construire des modèles de ML performants ? En fait, la protection des données peut souvent être un obstacle à l'utilisation des données dans nos modèles. Voyons ce que nous entendons par là.

Anonymisation des données pour permettre leur utilisation

La première façon dont la protection des données peut débloquer les données pour la modélisation ML est bien sûr la nécessité de suivre les réglementations (telles que le GDPR). En particulier dans le contexte du NLP, nous traitons souvent des informations personnelles identifiables (PII). Sans anonymisation ou pseudonymisation des données, nous ne pourrions pas utiliser les données du tout ou pas de la manière la plus efficace.

Outre le déblocage du projet, cela peut également avoir un impact majeur sur la qualité du modèle. Considérons un projet de ML qui contient des données PII. Sans anonymisation, nous devons supprimer les données dès que possible. Selon l'application, cela peut prendre trois mois. Toutefois, en investissant dans un flux d'anonymisation approprié, ces données ne seront plus personnellement identifiables et pourront ensuite être stockées pendant une période indéfinie. Le graphique ci-dessous montre l'impact typique de la performance d'un modèle en s'entraînant sur un plus grand nombre de points de données (représentés par la période de temps pendant laquelle les données ont été collectées).

La protection des données est également nécessaire pour instaurer la confiance et se prémunir contre les attaques potentielles. Enfin, il est essentiel, pour protéger la vie privée, de veiller à ce qu'une personne mal intentionnée ne puisse pas savoir si une personne donnée faisait partie des données de formation, ou puisse relier des données anonymes à d'autres données afin d'identifier des personnes.

Combinaison de différentes techniques de protection des données

La protection des données peut se faire à l'aide de différentes techniques. Il n'y a pas de "solution miracle" - nous utilisons souvent différentes techniques en combinaison les unes avec les autres. Deux des méthodes les plus courantes et les plus simples sont la désidentification/l'anonymisation des données et la K-anonymisation. La première consiste à supprimer les informations personnelles de l'ensemble de données, par exemple en brouillant les visages dans les images. La seconde consiste à créer l'anonymat par le nombre, c'est-à-dire à définir un ensemble minimal d'occurrences et à regrouper les valeurs aberrantes, afin de protéger les individus contre les déductions basées sur un groupe de petite taille.

Les autres méthodes comprennent généralement une certaine forme d'injection de bruit, ce qui signifie que nous remplaçons un ensemble minimal d'attributs de points de données pour améliorer la confidentialité. Dans tous les cas (bien sûr plus clairement pour les méthodes d'injection de bruit), vous devrez faire un compromis entre l'utilité et la confidentialité des données. La sélection et la combinaison des méthodes dépendront de votre cas d'utilisation.

Compromis entre l'utilité et la protection de la vie privée pour la confidentialité des données

Données externes

Comme leur nom l'indique, les données externes comprennent toutes les données collectées à l'extérieur de l'organisation. Si aucune donnée interne pertinente n'est disponible (par exemple, pour un produit totalement nouveau), il peut s'agir de la seule option.

Toutefois, même lorsque vous disposez de données internes pertinentes, les données externes peuvent constituer un bon investissement lorsque le nettoyage des données internes est trop coûteux ou lorsque vous souhaitez étendre les données internes. Cela peut se faire soit en termes de quantité, en ajoutant des caractéristiques supplémentaires (par exemple, des informations météorologiques), soit en étant plus complet.

Évaluer vos options et garder les compromis à l'esprit

Il existe différents types de sources de données externes à prendre en considération, en fonction bien sûr de leur disponibilité et des besoins du projet :

  • Sources de données publiques : Données librement accessibles, telles que https://data.gov.be/
  • Sources de données payantes : Données qui peuvent être achetées à des fournisseurs de données moyennant un coût. Les exemples courants de ce type de données sont les données d'entreprise, les données météorologiques...
  • Données récupérées : Données disponibles sur l'internet, mais qui doivent être récupérées et mises à jour. Une mise en garde s'impose ici : il est bien sûr important de prendre en compte les implications juridiques du scraping, en fonction de la source des données.

Entre ces différents types, ainsi qu'entre les différents fournisseurs, il y a des compromis importants à prendre en compte. Les trois axes sur lesquels nous évaluons généralement les options sont le prix, la qualité et l'investissement en temps.

Compromis pour le choix de la bonne source de données externes

En approfondissant un peu plus chaque axe :

  • Prix: le prix d'achat réel est le facteur le plus facile à prendre en compte. Toutefois, il convient de noter que le modèle de tarification fait également partie de ce facteur, et qu'en fonction de votre cas d'utilisation ou de votre phase (par exemple, déploiement global ou première analyse), un fournisseur différent peut être le mieux adapté.
  • Investissement en temps: coût du travail interne nécessaire pour utiliser et continuer à utiliser les données externes. Cela commence par la complexité de l'intégration, par exemple le fait d'avoir des données disponibles directement dans votre base de données plutôt que dans un format de données exotique que vous devez recevoir physiquement par le biais d'un disque dur. Mais cela couvre également les coûts de maintenance, par exemple la maintenance d'une infrastructure de scraper peut représenter un coût important, et enfin la stabilité du fournisseur. S'il n'est pas certain qu'un fournisseur continuera à maintenir ou à mettre à jour l'ensemble de données, cela pourrait entraîner de nombreuses modifications à l'avenir.
  • Qualité: l'objectif des données externes est de disposer de données plus qualitatives ; il est donc essentiel de vérifier l'exactitude, la couverture et la fréquence des informations.

Passer des données acquises aux données utilisables

Malheureusement, il ne suffit pas de mettre la main sur des données externes pour pouvoir les utiliser facilement. Gardez à l'esprit que les données externes doivent souvent être nettoyées, augmentées et post-traitées avant de pouvoir les utiliser dans vos modèles de ML.

Dans le cadre de votre évaluation et de vos calculs de la valeur commerciale du projet, réfléchissez à la quantité d'ingénierie supplémentaire à réaliser sur les données externes, par exemple pour améliorer la qualité des données, combiner plusieurs sources de données ou associer les données à des données internes.

Données synthétiques

Comme nous l'avons mentionné dans notre premier article de blog, la collecte de données, et en particulier leur étiquetage, est souvent une tâche coûteuse en temps et en argent. C'est pourquoi les praticiens de la ML recherchent de plus en plus des moyens plus efficaces de générer des données utilisables, qu'il s'agisse d'élargir artificiellement les ensembles de données en créant de petites variations sur les points de données existants (augmentation des données) ou d'utiliser de plus en plus des données hybrides ou entièrement synthétiques.

Les données synthétiques sont sous les feux de la rampe pour deux raisons principales : d'une part, elles permettent d'augmenter la quantité de données disponibles pour la formation. D'autre part, elles peuvent être un moyen de protéger les données. En fin de compte, les données synthétiques peuvent aider à obtenir des modèles plus précis, plus robustes, plus justes et plus privés.

Bien que les données synthétiques puissent en fin de compte présenter de nombreux avantages, nous voyons généralement trois cas d'utilisation où elles sont déjà utiles :

  • Protection des données non IPI sensibles de l'entreprise: il s'agit de cas où nous ne pouvons pas exploiter les techniques d'anonymisation existantes, mais où les données sont vraiment sensibles. Pensez aux recettes de produits ou aux journaux complets des machines. Dans ces cas, la possibilité de travailler sur des données synthétiques similaires peut réellement débloquer des projets.
  • Données réelles non disponibles ou trop coûteuses à générer : certaines données d'entraînement sont légitimement trop coûteuses à produire dans la vie réelle, par exemple les pannes de machines spécifiques ou les scanners médicaux très coûteux. Dans ces cas, il devrait être moins coûteux d'investir dans la création de données synthétiques réalistes.
  • Protection des données PII: utilisation de données synthétiques comme alternative aux techniques d'anonymisation/pseudonymisation existantes, car il faut généralement combiner plusieurs approches pour trouver le meilleur compromis entre l'utilité et la confidentialité des données.

Approches/techniques typiques

D'une certaine manière, les techniques utilisées pour l'augmentation des données et la pseudonymisation/anonymisation des données peuvent être exploitées pour créer des données synthétiques. Cependant, l'idée est généralement de créer des échantillons complètement nouveaux qu'il est encore plus difficile de relier à un ensemble de données original. Nous considérons deux grands blocs d'approches :

  • Basé sur un modèle: généralement, les modèles basés sur l'apprentissage profond sont formés pour générer de nouveaux échantillons. Deux architectures populaires pour cela sont les autoencodeurs variationnels (VAE) et les réseaux adversoriels génératifs (GAN).
  • Basé sur des règles: il existe parfois des règles commerciales ou des règles de construction claires qui peuvent être suivies pour créer de nouvelles données synthétiques. Il peut s'agir de moteurs de règles qui peuvent être chargés de créer une entrée de données valide (par exemple, des personnes avec une fourchette d'âge appropriée, une adresse électronique plausible, etc.

Se frayer un chemin dans la jungle des cadres

À ce stade, il convient de faire une mise en garde : les données synthétiques sont un domaine en plein essor, mais encore émergent. Cela signifie qu'il y a beaucoup de nouveaux frameworks qui apparaissent, dont certains sont encore dépréciés.

Certains cadres méritent certainement d'être vérifiés :

Pour conclure : en règle générale, la création de nouveaux échantillons n'est pas la partie la plus difficile. Cependant, s'assurer que les échantillons synthétiques sont utiles et pertinents est beaucoup plus difficile. Assurez-vous donc de disposer d'un bon moyen de mesurer la qualité de vos données synthétiques.

Pour plus d'informations sur les données synthétiques issues de notre recherche, cliquez ici :

Dans ce billet, nous avons mis l'accent sur les données - en examinant comment nous pouvons débloquer les cas d'utilisation du ML qui manquent de données utilisables. Nous avons montré comment la combinaison de diverses techniques de protection de la vie privée peut contribuer à protéger contre les attaques et rendre possible l'utilisation de données autrement personnelles ou confidentielles. Ensuite, nous avons montré diverses options et compromis pour inclure des données externes afin d'étendre ou de construire notre ensemble de données. Enfin, nous avons examiné de plus près les données synthétiques, une approche qui doit encore être prouvée mais qui promet la possibilité d'augmenter la taille de notre ensemble de données et de mieux protéger la vie privée.

Postes connexes

Voir tout le contenu
Aucun résultat n'a été trouvé.
Il n'y a pas de résultats correspondant à ces critères. Essayez de modifier votre recherche.
Grand modèle linguistique
Modèles de fondation
Entreprise
Personnes
Données Structurées
Chat GPT
Durabilité
Voix et son
Développement frontal
Protection des données et sécurité
IA responsable/éthique
Infrastructure
Hardware et capteurs
MLOps
IA générative
Natural Language Processing
Vision par ordinateur