Exploiter la puissance des modèles de fondation pour votre entreprise avec LoRA
Les contributeurs
Nikhil Nagaraj
Ingénieur en machine learning
Aucun élément trouvé.
S'abonner à la newsletter
Partager cet article
Les dernières tendances en matière d'IA sont les modèles de base. Pensez aux grands modèles de langage (LLM) tels que GPT ou aux générateurs d'images tels que Stable Diffusion. Ces modèles de base sont entraînés à grande échelle sur de grandes quantités de données, ce qui permet d'obtenir un modèle qui peut être adapté à un large éventail de tâches en aval. Ils peuvent être utilisés directement pour diverses applications, mais sont plus performants lorsqu'ils sont adaptés à une tâche spécifique. Cependant, ces grands modèles de base sont coûteux à affiner, car ils nécessitent de vastes ressources informatiques et de la mémoire.
Le réglage fin consiste à mettre à jour les paramètres d'un modèle pré-entraîné à l'aide de nouvelles données. Cela permet au modèle de s'adapter aux caractéristiques et aux nuances du domaine ou de la tâche cible tout en préservant les connaissances générales acquises lors du pré-entraînement à grande échelle. Toutefois, cette méthode présente quelques inconvénients (en particulier dans le cas des grands modèles fondateurs) :
Elle nécessite une nouvelle formation de tous les paramètres du modèle, ce qui peut représenter des milliards de dollars dans le cas des LLM, ce qui signifie plus de temps, d'énergie et d'argent consacrés à la formation.
Cela augmente le risque de surajustement, en particulier lorsque les nouvelles données sont peu nombreuses ou bruyantes, ce qui peut dégrader les performances du modèle pour d'autres tâches ou domaines.
Pour relever ces défis, des chercheurs de Microsoft ont proposé une nouvelle technique appelée LoRA : Low-Rank Adaptation of Large Language Models.
LoRA : Low-Rank Adaptation (Adaptation de rangs faibles)
LoRA est basé sur l'approximation de bas rang, une méthode mathématique qui permet de réduire la complexité et la dimensionnalité des grandes matrices en trouvant des matrices plus petites qui les approximent bien.
La méthode LoRA consiste à geler les poids d'origine du modèle pré-entraîné et à entraîner un nombre beaucoup plus restreint de paramètres. Ces paramètres ajustés sont ensuite ajoutés au modèle pré-entraîné. La figure ci-dessous illustre ce processus :
Schéma décrivant l'approche proposée par la LoRA(Source).
Avantages de la LoRA
Réduire le nombre de paramètres entraînables de plusieurs ordres de grandeur, en fonction du rang choisi pour les matrices de mise à jour. Par exemple, l'utilisation de LoRA sur le GPT-3 175B réduit le nombre de paramètres entraînables de 175 milliards à 17 millions, soit une réduction de 10 000 fois¹.
Le nombre de paramètres étant plus faible, la mémoire du GPU est moins importante, ce qui réduit considérablement les coûts liés à la mise au point d'un modèle de grande taille.
Éviter le surajustement en gardant les poids originaux fixes et en n'en mettant à jour qu'une petite partie, ce qui permet de préserver la capacité de généralisation du modèle tout en l'adaptant à de nouvelles données.
Effectuez un changement de tâche efficace en ne stockant qu'une seule copie des poids originaux et plusieurs ensembles de matrices de mise à jour pour différentes tâches ou différents domaines. Cela réduit l'espace de stockage et la mémoire nécessaires au déploiement et vous permet de passer d'une tâche à l'autre sans recharger le modèle.
Quelques applications commerciales de la LoRA
La possibilité d'affiner les modèles de fondation (comme les LLM) avec de faibles exigences de calcul, à faible coût et dans un régime de faibles données ouvre de nombreuses opportunités pour les entreprises qui cherchent à capitaliser sur l'IA et à améliorer leurs processus. En voici quelques exemples :
Ajuster les LLM pour effectuer des tâches spécifiques en langage naturel telles que le résumé/la classification : Avec LoRA, les entreprises peuvent modifier de grands modèles de langage, tels que GPT-3 ou LLaMA, pour réaliser des tâches spécifiques de traitement du langage naturel. Ces tâches peuvent inclure le résumé ou la classification de textes. Par exemple, un organe de presse pourrait utiliser ce modèle pour classer automatiquement les articles d'actualité dans des rubriques prédéfinies ou pour générer de courts résumés d'articles longs. L'avantage de LoRA dans ce contexte est que les entreprises peuvent adapter les modèles à leurs besoins spécifiques sans avoir besoin de ressources importantes.
Adaptation au domaine des LLM Open Source : Avec LoRA, les entreprises peuvent affiner les grands modèles de langage pour qu'ils suivent des instructions spécifiques, comprennent le jargon propre à un domaine et s'adaptent à un domaine spécifique comme le droit, la finance, la médecine ou la fabrication, ce qui les rend plus aptes à répondre à des questions ou à exécuter des tâches dans le domaine en question.
Adapter de grands modèles ASR (Automatic Speech Recognition) open-source comme Whisper à des langues ou des accents spécifiques : La technologie ASR est cruciale dans des applications telles que les assistants vocaux, les services de transcription, etc. Cependant, ces modèles ont souvent besoin d'aide pour les accents différents ou les langues moins représentées dans les données d'apprentissage. Grâce à LoRA, les entreprises peuvent mieux adapter les grands modèles ASR pour comprendre un plus large éventail de langues ou d'accents. Cela pourrait améliorer considérablement la facilité d'utilisation des services à commande vocale pour les clients du monde entier.
Ajustez les modèles de génération d'images tels que la diffusion stable pour qu'ils suivent un style ou une structure particulière : Les modèles de génération d'images ont été utilisés dans la création d'art numérique, la conception et même la génération d'images réalistes pour l'entraînement d'autres modèles d'apprentissage automatique. Cependant, faire en sorte que ces modèles génèrent des images suivant un style ou une structure spécifique peut s'avérer difficile et gourmand en ressources. Grâce à LoRA, les entreprises peuvent affiner ces modèles avec moins de ressources informatiques pour créer des images d'une manière particulière, comme un style artistique spécifique pour un jeu numérique ou des conceptions de produits distinctives pour une entreprise manufacturière.
Quelques images générées par la mise au point d'un modèle de diffusion stable avec LoRA(Source).
Ce ne sont là que quelques exemples de l'utilisation de LoRA dans un contexte professionnel. Il s'agit d'un outil polyvalent qui peut réduire considérablement les ressources informatiques nécessaires pour adapter des modèles puissants à des tâches spécifiques, ce qui permet aux entreprises de toutes tailles de profiter des avantages de l'IA.
Conclusion
L'IA est la nouvelle électricité. Tout comme l'électricité a transformé presque tout il y a 100 ans, j'ai aujourd'hui du mal à penser à une industrie que l'IA ne transformera pas au cours des prochaines années. - Andrew Ng
À l'aube de la révolution de l'IA, les entreprises doivent reconnaître le pouvoir de l'IA et la façon dont elle peut transformer leurs opérations. Grâce à des techniques telles que la LoRA, même les modèles les plus importants deviennent accessibles et abordables pour l'adaptation. Cela permet aux entreprises d'exploiter le pouvoir de l'IA, tout comme l'électricité a été exploitée il y a un siècle, pour éclairer leur chemin vers l'innovation et le progrès. Il ne s'agit pas seulement d'une ère de changement, mais d'un changement d'ère.