Développer des systèmes d'IA à l'ère des modèles de fondation : des MLOps aux FMOps

Les contributeurs
Jan Van Looy
Chef de projet et spécialiste de l'IA générative
Caroline Adam
Responsable de l'incubation et éthicien de l'IA
S'abonner à la newsletter
Partager cet article

MLOps - mettre les modèles d'IA en production

Le développement d'un modèle d'apprentissage automatique est souvent la première étape de la création d'une solution d'IA, mais jamais la dernière. Pour qu'un modèle soit exploitable, il doit être utilisé et ses prédictions doivent être transmises à une application. Mais que se passe-t-il si de nombreux utilisateurs envoient soudainement des demandes en même temps ou si le système ne répond plus ? Et que se passe-t-il si les données sur lesquelles le modèle a été entraîné ne sont plus représentatives des données réelles actuelles et que les performances du modèle commencent à se détériorer ? C'est là qu'interviennent les opérations d'apprentissage automatique (MLOps) : une combinaison d'outils et de processus pour créer et maintenir automatiquement un système d'IA robuste et à jour.

Figure : Représentation schématique d'un flux de travail MLOps typique (source)
Figure : Représentation schématique d'un flux de travail MLOps typique (source)

Les phases typiques du cycle de vie d'un modèle d'apprentissage automatique sont l'ingestion, la validation et le prétraitement des données, puis l'entraînement, la validation et le déploiement du modèle. Chaque fois qu'un modèle est mis à jour, le système doit passer par toutes ces étapes. En automatisant le cycle de vie de l'apprentissage automatique, le processus de création et de déploiement des modèles peut être accéléré, ce qui permet d'accélérer l'innovation, de réduire les coûts de développement et d'améliorer la qualité (pour un aperçu plus détaillé des étapes impliquées dans les MLOps, voir ce billet de blog).

C'est un secret bien gardé que dans les projets réels, le MLOps se résume souvent à quatre-vingt à quatre-vingt-dix pour cent de " DataOps " et seulement dix pour cent de " ModelOps ". Dans les premiers temps, les ingénieurs en ML créaient un graphique de modèle, préparaient les données et procédaient manuellement à l'ajustement des hyperparamètres. L'apprentissage par transfert, à partir d'un modèle pré-entraîné, a supprimé la nécessité de créer des architectures de modèles personnalisées et MLOps a automatisé le réglage des hyperparamètres. Il ne reste plus que le traitement des données, qui n'a cessé de gagner en importance à mesure que les projets d'apprentissage automatique s'attaquaient à des problèmes réels de plus en plus complexes.

Des MLOps aux FMOps

Alors que nous entrons dans l'ère de la FM, le MLOps subit une profonde mutation : la combinaison en aval de plusieurs modèles spécifiques à une tâche et de la logique commerciale cède la place à une préparation intelligente des données en amont, à un réglage fin et à une orientation du comportement émergent de la FM, ainsi qu'à un post-traitement et à un enchaînement plus poussés des résultats de la FM.

Nous proposons la définition suivante comme définition de travail des FMOps :

FMOps désigne les capacités opérationnelles requises pour gérer les données et aligner, déployer, optimiser et surveiller les modèles de fondation dans le cadre d'un système d'IA

Dans les prochaines sous-sections, nous approfondirons les différents aspects des FMOps, en parcourant le diagramme ci-dessous, en commençant par l'alignement du modèle.

Figure : Foundation Model Ops (FMOps) en tant que combinaison des opérations traditionnelles (déploiement, optimisation, surveillance), de la gestion des données et de l'alignement des modèles.
Figure : Foundation Model Ops (FMOps) en tant que combinaison des opérations traditionnelles (déploiement, optimisation, surveillance), de la gestion des données et de l'alignement des modèles.

Alignement des modèles

La principale différence entre les modèles traditionnels d'apprentissage automatique et les modèles de base est leur comportement émergent et leur capacité à être alignés pour effectuer différentes tâches en aval. Il n'est donc pas surprenant que ce soit là que de nombreux changements de MLOps à FMOps sont initiés. Afin de tirer le meilleur parti des FM, il convient de les affiner, de guider leur inférence et de traiter et d'enchaîner leurs résultats pour orienter leur comportement. Dans les sections suivantes, nous approfondissons ces différentes étapes.

Orientations

Le guidage, dont l'incitation est probablement la manifestation la plus connue, se produit au moment de l'exécution (lors de la génération) et vise à orienter la tâche exécutée par le modèle dans une certaine direction : par exemple, répondre à une question, générer une image sur la base d'un texte spécifique, segmenter un objet spécifique dans une image.

Le guidage a connu un véritable essor ces derniers temps, la communauté s'engageant dans une ingénierie des messages guides de plus en plus élaborée pour la génération d'images et de textes, dans des cours sur les messages guides et même dans des places de marché pour les messages guides. Les MLOps et les cadres de suivi des expériences ont suivi le mouvement et fournissent des outils pour la création de modèles, l'élaboration de versions et le test des messages-guides. L'utilisation de ces outils peut apporter des gains d'efficacité significatifs en permettant de se concentrer sur les meilleures entrées possibles. Il reste à voir si l'ingénierie humaine des invites restera une compétence utile à long terme, car la conception des invites peut être automatisée à l'aide d'algorithmes de recherche ou les préfixes numériques peuvent être réglés en remplaçant les invites, qui sont plus performantes que la conception (et la recherche) des invites dans la plupart des cas (voir la figure).

Figure : Le modèle et la mise au point rapide sont plus performants que la conception rapide (source)
Figure : Le modèle et la mise au point rapide sont plus performants que la conception rapide (source)

Les messages-guides sont un moyen facile et amusant de guider les modèles d'IA et ils ont entraîné une démocratisation fondamentale de la pratique du "travail avec l'IA". En outre, les développeurs de modèles ont repoussé les limites du nombre de mots pouvant être saisis en tant que "contexte", ce qui permet de fournir des livres entiers en entrée. Il convient toutefois de noter que le fait de s'appuyer sur des messages-guides pour la conception du système présente des inconvénients, tels que les suivants :

  • La quantité de mémoire nécessaire augmente de façon quadratique avec la taille de l'entrée, ce qui limite l'entrée maximale.
  • Le coût de calcul et le temps d'inférence augmentent avec la taille de l'invite
  • Les invites peuvent être spécifiques à un modèle et ne garantissent pas des résultats fixes, en particulier lorsque les modèles sont mis à jour.

Il ne fait aucun doute que de nombreux autres moyens de guider les FM seront disponibles à l'avenir. D'ici là, il semble que d'autres méthodes d'alignement continueront à jouer un rôle important dans l'orientation des FM vers le comportement souhaité.

Mise au point

Les modèles de fondation sont entraînés sur des ensembles de données de la taille d'Internet avec un objectif simple tel que la prédiction du mot suivant. Cela en fait d'excellents généralistes qui peuvent être guidés vers des types plus spécifiques de génération de texte en utilisant par exemple un guidage basé sur l'invite. Toutefois, comme ils sont formés en tant que généralistes, ils ont tendance à être des "touche-à-tout, mais des maîtres en la matière".

Une autre raison de procéder à un réglage fin peut être que vous avez besoin d'un modèle qui comprenne un jargon spécifique et/ou qui ait une connaissance approfondie d'un domaine spécifique. Les domaines cibles sont par exemple la finance, la biomédecine, la médecine ou le langage juridique. Le graphique ci-dessous donne une idée des performances de Med-PaLM, un modèle spécialisé, par rapport à GPT 3.5 (ChatGPT) pour répondre aux questions de l'examen d'aptitude médicale.

Figure : Précision des différents modèles pour répondre aux questions d'examen médical (source)
Figure : Précision des différents modèles pour répondre aux questions d'examen médical (source)

La mise au point d'un modèle de base a pour effet à la fois de restreindre et d'approfondir ses capacités. Il permet également d'ajouter des connaissances ou des capacités qui ne sont pas présentes dans les ensembles de données publiques, telles que les données propriétaires ou les rapports de recherche achetés dans le commerce, et il peut être utilisé pour alimenter un modèle avec les dernières idées ou les derniers concepts. Enfin, la mise au point est aussi souvent utilisée pour enseigner à un modèle un style spécifique de génération, par exemple en écriture, en dessin ou en conception.

Le réglage fin s'effectue généralement en plusieurs étapes à l'aide de différentes techniques, de différents paramètres et de modèles d'IA auxiliaires. Le choix précis des techniques dépend directement du cas d'utilisation et des données disponibles. Les modèles de réponse aux questions comme ChatGPT, par exemple, sont d'abord affinés de manière supervisée sur des ensembles de données d'instruction (réponses à des questions très élaborées), puis basés sur la récompense à l'aide de l'apprentissage par renforcement avec retour d'information humain (Reinforcement Learning with Human Feedback - RLHF). ControlNet est une technique récente très réussie dans le domaine de la génération d'images, dans laquelle une copie des poids du modèle est affinée pour apprendre à partir de conditionnements supplémentaires tels que les bords, les lignes, les cartes, les poses et la profondeur.

Enfin, alors que le réglage fin était autrefois une entreprise coûteuse en termes de calcul, de nombreuses techniques très efficaces sont désormais disponibles. Elles ajoutent généralement de petites parties facilement réglables à un modèle, telles que des matrices de poids(LoRA), des modules d'adaptation ou des préfixes. Ces techniques sont souvent combinées à la quantification (utilisation de nombres de plus petite précision) dans une partie de la boucle d'apprentissage (par exemple, la rétropropagation) qui réduit les besoins en mémoire (par exemple, qlora). Il est ainsi possible d'affiner même de grands modèles à plusieurs milliards de paramètres pour quelques centaines de dollars.

Post-traitement

Une fois qu'un modèle a généré une réponse, il peut être affiné ou filtré. Alors que dans le passé, il était courant de combiner les sorties du modèle avec la logique métier et d'autres sorties du modèle pour augmenter les performances, avec les FM, l'idéal serait d'éviter complètement cette étape et de s'assurer que le modèle a appris à fonctionner correctement dès le départ. Malheureusement, ce n'est pas encore le cas et les filtres peuvent être utiles avec les modèles d'aujourd'hui. Ces filtres peuvent viser à améliorer la qualité de la sortie réelle en comparant un certain nombre de générations ou à supprimer entièrement le contenu généré, comme dans le cas des filtres "dangereux pour le travail". Dans l'ensemble, pour l'instant, le post-traitement semble être un mal nécessaire qui, espérons-le, pourra un jour être complètement supprimé.

Chaînage

Les entrées et les sorties du modèle peuvent être enchaînées et combinées avec des entrées provenant de systèmes externes et de diverses sources de données. Ce type de construction d'applications logicielles avec des actions FM comme éléments de base est généralement appelé chaînage. Il s'agit d'un domaine en plein essor qui suscite beaucoup d'enthousiasme. Langchain est un cadre populaire pour la construction d'applications avec de grands modèles linguistiques. Il permet de mettre en œuvre des séquences d'appels à différents modèles et à d'autres systèmes et d'effectuer des transformations logiques et autres sur ces derniers. L'un des attraits de cette approche est qu'elle permet de créer des agents logiciels capables d'effectuer de manière autonome des recherches et même des actions sur l'internet (par exemple, Auto-GPT). Certains modèles tels que ChatGPT fournissent des plugins étroitement intégrés au modèle qui sont plus faciles à utiliser mais moins flexibles. Bien qu'il s'agisse d'un domaine très intéressant, le nombre et la variété des applications en production semblent pour l'instant limités et se limitent en grande partie à la Génération Augmentée de Récupération (RAG) pour fournir aux chatbots une mémoire supplémentaire des conversations passées ou pour augmenter la qualité des réponses et réduire les hallucinations. Il s'agit toutefois d'un domaine qui évolue rapidement, de sorte que d'autres innovations ne manqueront pas d'apparaître rapidement.

Gestion des données

Comme nous l'avons vu précédemment, les performances du système dépendent du choix du modèle de base, mais encore plus des étapes ultérieures de réglage fin. De manière significative, les performances du réglage fin sont directement liées à la disponibilité de données de haute qualité, spécifiques au domaine et à la tâche. De même, les autres étapes de l'alignement deviennent de plus en plus dynamiques et basées sur des données plutôt que sur des invites ou des règles statiques. La génération augmentée par récupération (RAG), par exemple, qui est une technique populaire pour guider les modèles au moment de l'exécution, est pilotée par un système de recherche sémantique qui récupère les informations pertinentes pour la requête de l'utilisateur et les ajoute à l'invite qui entre dans le modèle. La vérification des faits lors du post-traitement et les appels de recherche de données lors de l'enchaînement s'appuient également sur les données disponibles. Il va donc sans dire que les capacités en matière de données sont essentielles pour intégrer avec succès les systèmes basés sur la comptabilité budgétaire dans les pratiques commerciales. La connaissance par le biais de données propriétaires sera l'un des principaux facteurs de différenciation dans l'économie de la connaissance axée sur le FM de demain et constituera le principal fossé pour ses acteurs.

Figure : Zoom sur l'interaction entre l'alignement du modèle et la gestion des données
Figure : Zoom sur l'interaction entre l'alignement du modèle et la gestion des données

Lors de la mise en place d'une infrastructure de données, il convient de garder à l'esprit un certain nombre d'éléments. Tout d'abord, les FM traitent des données non structurées (texte, images) ainsi que des données structurées (tableaux). Dans le passé, la mise en place d'un lac de données était souvent destinée à servir de base à l'extraction de données structurées telles que des tableaux et des tableaux de bord. Les modèles de fondation peuvent prendre en charge les données brutes et ils peuvent également accéder aux tableaux de bord et aux rapports récents au moment de l'exécution. Par conséquent, le grand saut dans les capacités à attendre est la combinaison des stocks de données dans les rapports et les comptes qui sont actuellement inutilisés dans les coffres-forts de données à combiner avec les lignes d'information existantes.

Un deuxième aspect à prendre en considération est que les MF peuvent déjà traiter plusieurs modalités de données (texte, images, parole) et que cela ne fera que s'étendre à la vidéo, à la 3D, à l'imagerie hyperspectrale, aux données géographiques et à d'autres domaines encore.

Troisièmement, si les FM aiment les données non structurées, ils les aiment aussi en chiffres. Lorsqu'ils saisissent des données ou accèdent à la recherche sémantique, ils le font par le biais d'embeddings, des représentations numériques des données. Des bases de données vectorielles très puissantes et évolutives constitueront un élément central de l'infrastructure de données des FM de demain.

Quatrièmement, la qualité l'emporte généralement sur la quantité lorsqu'il s'agit de données, et les deux contribuent à la performance des systèmes basés sur le MF. Pour que les données non structurées et multimodales prennent la bonne forme, elles doivent être dédupliquées, filtrées, transformées de diverses manières, augmentées, éventuellement anonymisées, enrichies et probablement intégrées. Toutes ces étapes nécessitent des techniques spécialisées qui peuvent dépendre du type de données, du régime d'affinage et du cas d'utilisation. En fait, nombre de ces étapes impliquent elles-mêmes des modèles d'intelligence artificielle spécialisés qui exécutent des tâches spécifiques. Aujourd'hui, dans de nombreux cas, ces pipelines de données sont construits à partir de zéro pour chaque nouveau projet. La prochaine étape probable sera la normalisation du prétraitement des données avec des composants partageables et réutilisables qui seront combinés dans des pipelines de données composables. C'est pourquoi nous avons lancé Fondant, une initiative open source qui vise exactement cet objectif : permettre un alignement FM facile, puissant et rentable à travers les données.

Déploiement, optimisation, surveillance

En gros, il y a trois façons de mettre en place un système d'IA basé sur la MF :

Avantages et inconvénients du déploiement des modèles de fondation vers l'infrastructure en tant que service (IaaS), la plate-forme en tant que service (PaaS), le logiciel en tant que service (SaaS)

En règle générale, nous conseillons d'opter pour une solution SaaS légère pour des cas d'utilisation relativement simples ou pour la première fois, car elle est rapide et facile à mettre en place et il est toujours possible de passer à une configuration plus personnalisée pour réduire les coûts par la suite. Pour des cas d'utilisation plus personnalisés et plus importants, en revanche, nous opterions pour davantage de contrôle et d'ouverture, car c'est la meilleure garantie d'une performance optimale, d'une flexibilité et d'une maîtrise des coûts à long terme. Le choix entre PaaS et IAAS est principalement une question d'expertise technique disponible dans votre entreprise et de volonté d'éviter le verrouillage. L'IaaS peut être moins coûteux à exploiter et ne vous enferme pas dans une seule plateforme en nuage. Le PaaS est plus facile et moins coûteux à développer, avec des coûts d'infrastructure légèrement plus élevés. En ce qui concerne les services SaaS spécialisés comme AWS Bedrock et GCP Generative AI Studio, il est encore très tôt : s'ils parviennent à offrir un contrôle suffisant (par exemple en termes de réglage fin) à un bon niveau de prix, ils pourraient également devenir une option viable pour les cas d'utilisation personnalisés.

Conclusion

Les modèles de fondation sont arrivés et ils sont appelés à changer pour de bon le paysage des systèmes d'intelligence artificielle. Comme il est possible de leur apprendre à effectuer des tâches complexes liées à la connaissance, ils sont donc voués à changer la façon dont nous interagissons avec les machines et dont nous les considérons. Alors que le secteur de la connaissance en prend acte et commence à se préparer à soutenir ses travailleurs grâce à l'IA pilotée par la FM, les entreprises devraient examiner attentivement leurs options et choisir la voie la plus porteuse de valeur ajoutée. Actuellement, il s'agit probablement d'investir dans la mise en place de l'infrastructure de données nécessaire pour bénéficier de manière optimale des développements à venir. Parallèlement, il sera important de commencer à expérimenter des modèles et des systèmes spécialisés et de mettre à jour les flux de travail et les processus internes pour les adapter et générer les données nécessaires pour affiner les modèles de demain vers des performances inédites !

Postes connexes

Voir tout le contenu
Aucun résultat n'a été trouvé.
Il n'y a pas de résultats correspondant à ces critères. Essayez de modifier votre recherche.
Grand modèle linguistique
Modèles de fondation
Entreprise
Personnes
Données Structurées
Chat GPT
Durabilité
Voix et son
Développement frontal
Protection des données et sécurité
IA responsable/éthique
Infrastructure
Hardware et capteurs
MLOps
IA générative
Natural Language Processing
Vision par ordinateur