Développer des systèmes d'IA à l'ère des modèles de fondation : une introduction

Les contributeurs
Jan Van Looy
Chef de projet et spécialiste de l'IA générative
Caroline Adam
Responsable de l'incubation et éthicien de l'IA
S'abonner à la newsletter
Partager cet article

Introduction

Les analystes estiment que nous entrons dans l'ère industrielle de l'intelligence artificielle. Les modèles de base (FM) - de grands modèles d'IA préformés qui peuvent facilement être adaptés à de nouveaux cas d'utilisation - sont en train de révolutionner le travail créatif et devraient augmenter ou prendre en charge une part de plus en plus importante du travail de connaissance dans les années à venir, car de plus en plus de cas d'utilisation dans différentes industries sont traités par l'IA basée sur les FM.

Les entreprises des secteurs de la création et de la connaissance se démènent pour élaborer une stratégie, car elles sentent que leur activité pourrait bien connaître des montagnes russes dans les années à venir. Les clients nous signalent que, pour certaines tâches, leurs travailleurs sont déjà jusqu'à cinq fois plus productifs en utilisant des outils d'IA générative prêts à l'emploi, réalisant une semaine de travail en une journée. Personne ne veut rester à la traîne, mais pour beaucoup, il n'est pas évident de savoir où et comment commencer.

Dans ce billet, nous essayons de donner un sens à certaines des évolutions que nous observons autour de nous et de proposer une stratégie générale sur la manière de penser et d'aborder la révolution FM en cours. Nous commencerons par examiner les systèmes de gestion financière eux-mêmes et en quoi ils sont différents de ceux qui les ont précédés. Ensuite, nous examinerons les MLOps et la façon dont ils cèdent la place aux Foundation Model Ops (FMOps), qui sont beaucoup plus axés sur l'alignement des résultats du modèle que sur la performance et la stabilité. Dans l'ensemble, nous pensons qu'il est possible pour les entreprises de mettre en place dès à présent une infrastructure de données et d'IA qui leur permettra de tirer parti de toutes les innovations qui ne manqueront pas de se produire. La clé sera de mettre en place une solide gestion interne des données et de commencer à optimiser les processus internes. FMOps présente une clé pour mettre cette évolution en mouvement.

Progressivement, puis soudainement : Modèles de fondation

Le terme Foundation Model (FM) a été inventé dans un rapport de 2021 par des chercheurs de l'université de Stanford et défini comme suit :

Un modèle de base est un modèle d'apprentissage automatique formé sur de larges données à grande échelle, de sorte qu'il peut être adapté à un large éventail de tâches en aval.

Si tout le monde s'accorde à dire que ce changement est en train de se produire, nombreux sont ceux qui, dans l'industrie, en ont minimisé l'importance, car ces nouveaux modèles étaient initialement confinés aux laboratoires de recherche et à des applications de démonstration occasionnelles. Avec l'avènement de modèles tels que ChatGPT, cependant, il est devenu clair pour tout le monde que nous sommes en train d'assister à un changement de paradigme fondamental. Auparavant, les modèles d'apprentissage automatique étaient formés pour effectuer une tâche spécifique, puis enchaînés avec d'autres modèles et la logique d'entreprise pour prendre des décisions. Les FM, en revanche, sont des modèles à plusieurs milliards de paramètres entraînés sur des téraoctets de données souvent multimodales (par exemple, du texte et des images) en utilisant des quantités gigantesques de calcul (par exemple, LLaMA: 118 gpu-années) qui sont ensuite guidés pour effectuer des tâches complexes de manière relativement indépendante.

Les chercheurs de Stanford considèrent l'émergence et l'homogénéisation comme des concepts utiles pour comprendre le changement en cours. Au fur et à mesure que les modèles prennent de l'ampleur et qu'ils sont entraînés sur un plus grand nombre de données, ils commencent à afficher un comportement émergent. Cela signifie que, bien qu'ils aient été entraînés à effectuer une tâche très simple telle que prédire le mot suivant ou supprimer le bruit de cette image, ils développeront des comportements complexes pour y parvenir. Ces comportements plus complexes, comme la compréhension de la lecture (qui ressemble au raisonnement humain) ou le fait de dessiner comme Van Gogh (qui ressemble à la créativité humaine), ne sont jamais entraînés de manière explicite. Ils émergent simplement de l'apprentissage de la reconstruction des données.

Le fait que le passage à des modèles de base s'accompagne d'une tendance à l'homogénéisation, c'est-à-dire à une moindre diversité des modèles utilisés, est en partie lié à cette situation. Comme les grands modèles sont coûteux à former et peuvent être adaptés en aval pour effectuer une série de tâches, à l'avenir, l'industrie s'appuiera probablement sur un nombre limité de modèles de base pour un large éventail d'applications. Cette situation comporte certains risques liés aux préjugés sociétaux et à la désinformation. Par conséquent, à l'avenir, l'un des principaux défis pour les professionnels de l'apprentissage automatique sera d'aligner le comportement des modèles non seulement en termes de performance dans certaines tâches, mais aussi en termes de normes, de valeurs et d'attentes humaines en général.

Jouer dur pour obtenir

Au cours des dernières années, plusieurs dizaines de MF ont été développés, la plupart étant des modèles d'IA générative "traduisant" d'une modalité à une autre, par exemple de texte à texte(GPT), de texte à image(DALL-E), d'image à texte(BLIP), de parole à texte(Whisper), de texte à 3D(DreamFusion), de texte à vidéo courte(Make A Video), de texte à vidéo plus longue(Phenaki), de vidéo à vidéo(Gen1) et de texte à vidéo en 3D(Make a video 3D). La connexion de textes et d'images(CLIP) et la segmentation(SAM) sont deux exemples d'autres tâches auxquelles les FM se sont attaqués.

Ces FM sont généralement "libérés" d'une ou de plusieurs façons :

  • Article scientifique : la plupart des MF (par Meta, Google, Salesforce) sont décrits dans un article scientifique. Parfois, ils ne sont pas mis à disposition d'une autre manière, ce qui implique qu'ils ne peuvent être utilisés dans des applications que lorsqu'ils sont réimplémentés sur la base de l'article, par exemple par la communauté open source, comme dans le cas de Google Imagen / DeepFloyd IF.
  • Accès à l'API : accès payant ou gratuit à l'API qui vous permet d'interagir avec le FM : généralement les modèles d'OpenAI. Il est parfois possible d'affiner le modèle sur des données personnalisées, également par l'intermédiaire d'une API. Le contrôle est limité et les prix peuvent être élevés.
  • Open Source : le code pour l'exécution, l'ajustement et les poids est mis à disposition et peut être utilisé relativement librement, par exemple les modèles de Meta, Salesforce, Stability AI, Hugging Face, les instituts de recherche, les organisations open source (par exemple LAION, Eleuther). La principale question à prendre en compte ici est celle de la licence, qui peut être restrictive (par exemple, uniquement pour la recherche) ou permissive (autorisant également l'utilisation commerciale).

On ne sait pas encore très bien quel sera le paradigme selon lequel la plupart des modèles seront mis à disposition alors qu'un nombre croissant de FM entrent sur le marché. La concurrence entre les différents fournisseurs de nuages et de modèles jouera un rôle important à cet égard, de même que la réglementation, comme l'illustrent les récents amendements à la loi européenne sur l'IA et les auditions du Sénat américain. Sur la base des offres et des annonces actuelles de divers fournisseurs de cloud, le scénario le plus probable est qu'il y aura un spectre de configurations allant d'un contrôle très limité (simple invitation par le biais d'une API) à un accès totalement ouvert au code et aux poids pour la personnalisation et la mise au point.

Choisir un modèle de fondation

Auparavant, lors de la construction de modèles personnalisés, la performance était déterminée par la disponibilité des données (quantité et qualité), l'architecture et le réglage des hyperparamètres. Aujourd'hui, avec les FM, nous constatons que la performance est largement déterminée par deux facteurs largement indépendants :

Performances du modèle de base : elles sont déterminées par

  • Taille du modèle (nombre de paramètres)
  • Durée de la formation
  • Taille et qualité des données

Performance du réglage fin : déterminée par

  • Régimes de réglage fin (combinaison de) : auto-supervisé, supervisé, basé sur la récompense, ...
  • Qualité et taille des ensembles de données (multiples)

Le choix d'un modèle de base a une incidence directe sur les performances et le coût de fonctionnement de votre système. La sélection d'un grand modèle linguistique de 33B paramètres pour votre configuration améliorera probablement les performances, mais nécessitera également une infrastructure plus coûteuse. Il est intéressant de noter que nous observons une tendance à la convergence des modèles de base en termes d'architecture, de taille et même d'ensemble de données d'entraînement. Il est concevable qu'à l'avenir, nous nous retrouvions avec une gamme de modèles de base très similaires qui se feront concurrence dans des domaines autres que la performance, tels que le prix et les licences.

Nous pensons donc, comme nous l'avons vu avec ChatGPT qui est passé par plusieurs étapes de réglage fin supervisé et basé sur la récompense, que les étapes de réglage fin ultérieures deviendront des déterminants encore plus importants de la performance des tâches en aval. Il est probable que la mise au point elle-même sera encore divisée en mise au point en amont par les fournisseurs de modèles et en mise au point en aval sur des données propriétaires et des tâches spécifiques par les utilisateurs. C'est pourquoi nous conseillons à nos clients d'investir principalement dans le réglage fin en aval et dans la puissance d'alignement générale, tout en gardant les autres options aussi ouvertes que possible.

Outre les performances et le coût de fonctionnement, le principal facteur de choix d'un modèle de fondation est la facilité et la rentabilité avec lesquelles il est possible de construire un système qui réponde à vos besoins.

Dans notre prochain billet de blognous approfondirons ce que signifie la mise en place d'opérations modèles de la Fondation ou FMOps.


Postes connexes

Voir tout le contenu
Aucun résultat n'a été trouvé.
Il n'y a pas de résultats correspondant à ces critères. Essayez de modifier votre recherche.
Grand modèle linguistique
Modèles de fondation
Entreprise
Personnes
Données Structurées
Chat GPT
Durabilité
Voix et son
Développement frontal
Protection des données et sécurité
IA responsable/éthique
Infrastructure
Hardware et capteurs
MLOps
IA générative
Natural Language Processing
Vision par ordinateur