Application

Fondant

Un cadre centré sur les données pour affiner les modèles de fondation

Application des modèles de base dans des cas d'utilisation réels

Les modèles de fondation offrent des possibilités sans précédent d'accroître la productivité et de favoriser la croissance. Prêts à l'emploi, ils sont capables d'effectuer des tâches génériques telles que la génération de textes, d'images et de vidéos. Toutefois, ils doivent être spécialisés pour pouvoir accomplir des tâches complexes et spécifiques à un domaine, telles que la génération d'images dans un certain style visuel ou le travail avec du jargon juridique ou médical.

Fondant a été développé pour rendre ce processus, appelé réglage fin des modèles de fondations, aussi facile et performant que possible.

Qu'est-ce qu'un modèle de fondation ?

Les modèles de base sont des modèles formés sur des sources de données importantes et diverses et peuvent être utilisés pour un large éventail de tâches en aval. En tant que tels, ils constituent la "base" d'autres modèles.

Par exemple, GPT3 sert de base à ChatGPT, un modèle adapté à la réponse aux questions. Parmi les autres exemples de modèles de base, citons Stable diffusion, CLIP, SegmentAnything (SAM), et bien d'autres encore.

Qu'est-ce que le fondant ?

Fondant est un cadre open source pour la préparation des données et l'affinage des modèles de fondation, développé par ML6 en collaboration avec la communauté open source. Notre objectif est de rendre facile et efficace l'affinement de grands modèles de fondations basés sur des données spécifiques à un domaine de connaissance.

La qualité et la quantité des données sont les principaux facteurs qui déterminent la puissance des modèles d'IA affinés. Cependant, la préparation des données absorbe souvent 80 à 90 % du budget dans les scénarios du monde réel. Grâce à Fondant, nous souhaitons rendre ce processus aussi indolore que possible en fournissant une interface de programmation facile à utiliser, des pipelines composables et des composants réutilisables qui peuvent traiter des charges de données à l'échelle du téraoctet en quelques heures.

Essayez-le vous-mĂŞme
Rejoindre la communauté

Visitez notre page Github et commencez à tester et à contribuer à Fondant ! Sur Github, vous trouverez toutes les informations pour installer, tester et créer vos propres pipelines et composants. Faites-nous part de vos commentaires - nous ajoutons continuellement des fonctionnalités et des composants en fonction des besoins de nos utilisateurs.

Github

Caractéristiques principales

Centré sur les données

La performance d'un modèle est directement déterminée par la quantité et la qualité des données sur lesquelles il a été affiné. Fondant facilite la collecte, l'enrichissement et la conservation de données à grande échelle en vue d'une mise au point.

Multi-cloud et compatible

Fondant est compatible avec les hubs de données et de modèles, par exemple les hubs de modèles tels que Huggingface. Il prend en charge tous les principaux clouds, ce qui vous donne la liberté et le contrôle et évite le verrouillage des fournisseurs. Nous visons également à prendre en charge toutes les modalités de données (images, texte, vidéo, ...) afin de permettre un réglage fin de n'importe quel modèle de fondation.

Composable et extensible

Fondant permet de créer des pipelines hautement évolutifs de composants réutilisables pour l'enrichissement et la mise au point de grands modèles de fondations. Il facilite la collecte, le filtrage et la transformation intelligente des données et optimise la mise au point. Fondant est facile à réutiliser et à étendre.

Évolutif

Pour une performance optimale, les modèles de fondation ont besoin de grandes quantités de données pour être affinés. C'est pourquoi Fondant est conçu pour s'adapter. Dans les prochaines versions, nous visons à permettre le réglage fin ou même l'entraînement de grands modèles grâce au calcul distribué et à des pipelines hautement évolutifs.

Mouvement minimal des données

Fondant est conçu avec des ensembles de données comme interface et construit autour d'un manifeste central. Cela permet d'écrire une seule fois, de lire plusieurs fois et de minimiser les mouvements de données, ce qui réduit les coûts.

Cas d'utilisation

Spécialisation d'un grand modèle linguistique dans le langage juridique

Les grands modèles linguistiques (LLM) tels que BERT ou GPT ont tendance à se heurter à des difficultés lorsqu'ils traitent un langage spécifique à un domaine, par exemple dans les textes juridiques. C'est pourquoi nous avons utilisé Fondant pour préparer de grands ensembles de données néerlandais et français de millions de documents et avons affiné les modèles BERT généraux pour le langage juridique. Cela a entraîné une augmentation de 25 % des performances pour des tâches telles que l'extraction d'entités et la recherche sémantique, et nous a permis de construire un moteur de connaissances piloté par l'IA pour les notaires.

Mise au point d'un modèle de génération d'images par l'IA pour créer des images clipart nettes et précises

Les modèles de génération d'images d'IA tels que la diffusion stable peuvent créer des images de presque tout, mais ils peinent à fournir une qualité constante lorsqu'il s'agit de créer des images dans un style spécifique, tel qu'un clipart. Dans ce cas, un réglage fin sur des données spécifiques est nécessaire. À l'aide de Fondant, nous avons collecté et préparé un vaste ensemble de données d'images clipart soigneusement sélectionnées et découpées, puis nous avons affiné la diffusion stable pour contrôler le style, la variabilité et la qualité, tout en supprimant le besoin d'une ingénierie élaborée de l'invite. Il en résulte un générateur de cliparts adapté aux besoins spécifiques du public cible.

Développement d'un modèle ControlNet pour la génération d'un design d'intérieur interactif

La maîtrise d'une tâche spécifique, telle que la génération de designs d'intérieur guidés et réalistes, nécessite une mise au point sur des données de domaine spécialement préparées. Fondant facilite la collecte, le filtrage et l'enrichissement de ces données pour créer un modèle stable basé sur la diffusion qui vous permet de redessiner votre intérieur en quelques secondes. Cliquez ici pour une démonstration !

Des questions ?

Contactez nos experts en matière de fondants

Nous avons actuellement quatre sites en Europe et nous sommes impatients de vous impressionner. Faites-nous savoir comment nous pouvons vous aider.

Merci ! Votre demande a été reçue !
Oups ! Un problème est survenu lors de la soumission du formulaire.
Parler Ă 
Robbe Sneyders

Ingénieur ML principal

Contacter Robbe