Les modèles linguistiques tels que ChatGPT, GPT-4 et PaLM ont rapidement gagné en popularité et capté l'attention de tous. Jamais auparavant une application n'avait connu un tel afflux d'utilisateurs en si peu de temps. Néanmoins, de nombreuses entreprises se demandent comment exploiter efficacement les modèles de langage pour accélérer leurs opérations.
En tant que testeur de confiance de Google, ML6 a eu le privilège d'assister de près à l'innovation et au flux continu de mises à jour que Google a dévoilé depuis sa conférence de presse I/O en mai. Cette implication de première main nous a permis d'acquérir une vision précoce et une expérience pratique des avancées à venir en matière d'IA générative.
Dans cet article, nous allons explorer une sélection de produits que Google a publiés pour faciliter le développement d'applications alimentées par l'IA générative, et utiliser certains de ces produits pour assembler un chatbot LLM qui peut être personnalisé pour encapsuler vos données privées ou propriétaires. En outre, nous examinerons les stratégies d'exploitation de l'IA générative pour générer de la valeur pour votre entreprise et évaluerons la compétitivité de la tarification de Google.
L'IA générative est un terme générique qui décrit les algorithmes qui peuvent être utilisés pour créer un nouveau contenu (de n'importe quel type de données). Un LLM (Large Language Model), comme le PaLM, est un modèle d'IA générative qui fonctionne avec le langage humain. Il a appris, à partir d'un immense corpus de données d'entraînement générales, à lire et à produire de nouveaux textes grammaticalement corrects. Google vient de publier son dernier LLM, appelé PaLM 2(Pathways Language Model), qui est très compétent en matière de raisonnement avancé, de codage et de mathématiques.
PaLM 2 sera disponible en différentes tailles, ce qui permettra un déploiement sans effort dans un large éventail de cas d'utilisation. Plus précisément, Google proposera quatre tailles, de la plus petite à la plus grande : Gecko, Otter, Bison et Unicorn. À l'heure actuelle, quelques modèles Gecko et Bison ont été lancés : Gecko est suffisamment léger pour fonctionner sur des appareils mobiles, tandis que Bison se positionne comme le choix optimal en termes de capacité et de rentabilité.
Récemment, Google a également lancé une suite complète de produits pour répondre aux besoins de développement d'entreprises axées sur l'IA générative. Nous avons déjà effectué des recherches et rédigé une analyse complète dans le cadre d'un article de blog précédent. Dans cet article, nous allons nous concentrer sur le Vertex Model Garden, un environnement unique permettant de rechercher, de découvrir et d'interagir avec les modèles de base (FM) de Google et, à terme, avec des centaines de modèles open-source et de tiers. Le service vous permet d'utiliser les FM directement avec des modèles préconstruits, d'ajuster les FM avec des données et des invites pour une industrie ciblée, de personnaliser des modèles open-source populaires et de fournir un accès API pour des solutions spécifiques à une tâche.
Lorsqu'il s'agit de résoudre un problème commercial, le modèle linguistique doit être factuel, ce qui est particulièrement important dans les contextes de contact avec les clients, où la fiabilité des réponses du modèle est primordiale. Le modèle doit également être capable d'absorber des données exclusives et d'exploiter des extraits pertinents pour formuler des réponses.
Il existe deux méthodes principales pour utiliser un LLM dans un domaine spécifique : le réglage fin et la génération augmentée par la recherche. Comme toujours, les deux options ont leurs avantages et leurs inconvénients. Ne manquez pas de lire l'article de blog de mon cher collègue pour une comparaison descriptive. En bref, le réglage fin implique un entraînement supplémentaire d'un modèle général sur des données spécifiques à un domaine. Malheureusement, cela implique qu'à chaque fois qu'il y a de nouvelles données, vous devez affiner le modèle à chaque fois, ce qui peut être coûteux et inefficace.
La génération augmentée par récupération (RAG) à la rescousse ! La deuxième méthode, RAG, comprend deux étapes. Tout d'abord, un composant de recherche extrait des informations, des documents ou des passages pertinents d'une base de connaissances. Ces informations sont ensuite transmises au modèle linguistique avec l'invite pour générer une réponse. Cette configuration réduit considérablement le risque d'hallucinations et élimine la nécessité d'un recyclage intensif en termes de calcul (bien que des mises à jour périodiques de la base de connaissances soient nécessaires). En fait, c'est précisément de cette manière que nous avons conçu un chatbot doté de connaissances spécifiques à un domaine en utilisant le tout nouvel ensemble d'outils de Google !
Voici le schéma architectural de notre mise en œuvre. Les passages sont prétraités avec textembedding-gecko@001 pour créer un vecteur d'intégration pour chaque passage - essentiel pour effectuer des recherches vectorielles afin de trouver les passages pertinents, à partir d'une requête. Le composant de recherche, Elasticsearch, est une base de données vectorielle qui stocke les passages et leurs encastrements respectifs. L'utilisateur final communique par l'intermédiaire d'une interface de chat développée avec Flask. Lorsqu'une question est posée, la requête est intégrée et une recherche vectorielle est effectuée pour récupérer les documents pertinents. Ces documents, ainsi que la requête originale, sont transmis à PaLM 2, qui formule ensuite une réponse. Cette réponse est ensuite affichée dans l'interface de discussion. Un aperçu du résultat est présenté ci-dessous.
Pour l'avenir, nous sommes ravis d'explorer la recherche d'entreprise de Google pour le stockage, la récupération et l'intégration de passages, remplaçant ainsi l'ensemble du composant Elasticsearch. La recherche d'entreprise est une solution de recherche spécialisée qui aide les organisations à trouver et à récupérer efficacement des informations pertinentes dans de multiples référentiels et systèmes internes. Toutefois, pour l'instant, le service est limité aux clients inscrits sur une liste et le développement d'un SDK Python est toujours en cours.
Comme base de connaissances spécifique à un domaine pour la démonstration, nous avons utilisé MS MARCO, un ensemble de données de référence commun contenant une grande variété de questions de moteurs de recherche avec des réponses générées par des humains. Cependant, la force de cette configuration vient du fait qu'en quelques heures (proportionnellement à la taille de l'ensemble de données), cet ensemble de données peut facilement être remplacé par n'importe quelle connaissance propriétaire telle que les politiques, la recherche et les interactions avec les clients, de sorte qu'un chatbot puisse fournir une assistance technique approfondie en permanence. En outre, le chatbot peut fournir des références aux documents qu'il a utilisés pour formuler une réponse (voir les réponses du bot dans la démo).
L'IA générative peut accélérer de nombreuses facettes de votre entreprise. L'un des aspects omniprésents est celui des opérations clients*. L'IA générative peut être utilisée pour donner des réponses rapides et personnalisées aux demandes complexes des clients, indépendamment de leur langue ou de leur localisation. Elle peut également aider le service client à répondre aux questions et à résoudre les problèmes lors d'une première interaction en récupérant instantanément des informations spécifiques au client. En outre, elle peut augmenter les ventes en déterminant des suggestions de produits et d'offres adaptées aux préférences des clients. McKinsey estime que l'application de l'IA générative aux fonctions de service à la clientèle pourrait accroître la productivité de 30 à 45 % par rapport aux coûts actuels des fonctions[1]. [1].
La quantité de données d'entrée reçues et le résultat généré déterminent directement la facturation du service. Cependant, les fournisseurs mesurent les volumes différemment : Google mesure les caractères tandis qu'OpenAI mesure les jetons.
Comme indiqué dans la documentation sur la tarification de l'OpenAI, un jeton est une unité de mesure qui correspond approximativement à 4 caractères. Un caractère correspond à une lettre, un chiffre ou un symbole. Par exemple, le mot "cloud" comprend cinq caractères et peut légèrement dépasser la taille d'un seul jeton.
Comparons brièvement les prix de deux modèles de la même catégorie ! Pour simplifier la comparaison, nous avons adopté les caractères comme mesure. Nous pouvons observer que le PaLM 2 Text Bison est nettement plus abordable que le GPT-4 - l'entrée est ~7,5 fois moins chère, la sortie même ~15 fois !
En comparant le texte-embedding-ada-002 d'OpenAI et le texte-embedding-gecko@001 de Google, nous constatons que Google est ~4 fois plus cher qu'OpenAI, avec 0,000025 $ et 0,0001 $ par 1K caractères, respectivement.
Tous les modèles et toutes les tailles n'ont pas encore été lancés, mais il est évident que Google le fait à un rythme remarquablement élevé ! Grâce à l'incroyable commodité et à la facilité d'utilisation de l'API PaLM, vous pouvez interagir avec un LLM, ou n'importe quel modèle d'ailleurs, en quelques lignes de code seulement. En plus d'offrir une grande variété de produits, Google a obtenu des prix très compétitifs par rapport à d'autres fournisseurs ! Cette tendance se poursuivra-t-elle pour toutes les tailles de modèles ? Qu'en est-il des variantes de la Licorne ?
À l'heure actuelle, PaLM 2 s'entraîne sur des textes multilingues et passe des examens de compétence linguistique avancée au niveau de la maîtrise pour le chinois, le japonais, le français, l'espagnol et l'italien. Pour l'avenir, nous attendons avec impatience l'extension de la prise en charge du néerlandais !
Depuis le mois de mai, les développeurs basés aux États-Unis peuvent s'inscrire pour utiliser le modèle PaLM 2. Par ailleurs, les clients du monde entier peuvent utiliser le modèle dans Vertex AI en bénéficiant d'une confidentialité, d'une sécurité et d'une gouvernance de niveau entreprise. Compte tenu des performances exceptionnelles des modèles actuellement disponibles, nous sommes impatients de voir ce que nous réserve l'avenir. Qu'en est-il pour vous ? Suivez-vous la vague de l'IA générative ?