Un cadre centré sur les données pour affiner les modèles de fondation
Les modèles de fondation offrent des possibilités sans précédent d'accroître la productivité et de favoriser la croissance. Prêts à l'emploi, ils sont capables d'effectuer des tâches génériques telles que la génération de textes, d'images et de vidéos. Toutefois, ils doivent être spécialisés pour pouvoir accomplir des tâches complexes et spécifiques à un domaine, telles que la génération d'images dans un certain style visuel ou le travail avec du jargon juridique ou médical.
Fondant a été développé pour rendre ce processus, appelé réglage fin des modèles de fondations, aussi facile et performant que possible.
Les modèles de base sont des modèles formés sur des sources de données importantes et diverses et peuvent être utilisés pour un large éventail de tâches en aval. En tant que tels, ils constituent la "base" d'autres modèles.
Par exemple, GPT3 sert de base à ChatGPT, un modèle adapté à la réponse aux questions. Parmi les autres exemples de modèles de base, citons Stable diffusion, CLIP, SegmentAnything (SAM), et bien d'autres encore.
Fondant est un cadre open source pour la préparation des données et l'affinage des modèles de fondation, développé par ML6 en collaboration avec la communauté open source. Notre objectif est de rendre facile et efficace l'affinement de grands modèles de fondations basés sur des données spécifiques à un domaine de connaissance.
La qualité et la quantité des données sont les principaux facteurs qui déterminent la puissance des modèles d'IA affinés. Cependant, la préparation des données absorbe souvent 80 à 90 % du budget dans les scénarios du monde réel. Grâce à Fondant, nous souhaitons rendre ce processus aussi indolore que possible en fournissant une interface de programmation facile à utiliser, des pipelines composables et des composants réutilisables qui peuvent traiter des charges de données à l'échelle du téraoctet en quelques heures.
Visitez notre page Github et commencez à tester et à contribuer à Fondant ! Sur Github, vous trouverez toutes les informations pour installer, tester et créer vos propres pipelines et composants. Faites-nous part de vos commentaires - nous ajoutons continuellement des fonctionnalités et des composants en fonction des besoins de nos utilisateurs.
La performance d'un modèle est directement déterminée par la quantité et la qualité des données sur lesquelles il a été affiné. Fondant facilite la collecte, l'enrichissement et la conservation de données à grande échelle en vue d'une mise au point.
Fondant est compatible avec les hubs de données et de modèles, par exemple les hubs de modèles tels que Huggingface. Il prend en charge tous les principaux clouds, ce qui vous donne la liberté et le contrôle et évite le verrouillage des fournisseurs. Nous visons également à prendre en charge toutes les modalités de données (images, texte, vidéo, ...) afin de permettre un réglage fin de n'importe quel modèle de fondation.
Fondant permet de créer des pipelines hautement évolutifs de composants réutilisables pour l'enrichissement et la mise au point de grands modèles de fondations. Il facilite la collecte, le filtrage et la transformation intelligente des données et optimise la mise au point. Fondant est facile à réutiliser et à étendre.
Pour une performance optimale, les modèles de fondation ont besoin de grandes quantités de données pour être affinés. C'est pourquoi Fondant est conçu pour s'adapter. Dans les prochaines versions, nous visons à permettre le réglage fin ou même l'entraînement de grands modèles grâce au calcul distribué et à des pipelines hautement évolutifs.
Fondant est conçu avec des ensembles de données comme interface et construit autour d'un manifeste central. Cela permet d'écrire une seule fois, de lire plusieurs fois et de minimiser les mouvements de données, ce qui réduit les coûts.
Nous avons actuellement quatre sites en Europe et nous sommes impatients de vous impressionner. Faites-nous savoir comment nous pouvons vous aider.