5 novembre 2023

Décisions de déploiement de Whisper : Partie I - Évaluer la latence, les coûts et les mesures de performance

Les contributeurs
Shubham Krishna
Ingénieur en machine learning
Aucun élément trouvé.
S'abonner à la newsletter
Partager cet article

Le déploiement d'un modèle d'apprentissage automatique en production nécessite un examen approfondi de trois facteurs principaux :

  • Mesures de performance
  • Temps de latence
  • Coût du déploiement

Alors que de nombreux articles couvrent la formation, la mise au point et l'explication du papier derrière Whisper, il y a peu de ressources qui se concentrent sur l'exécution de Whisper dans un environnement de production. Dans une série de blogs en deux parties, nous nous penchons sur les aspects pratiques de la mise en œuvre d'OpenAI Whisper dans un environnement de production. Dans la première partie, nous explorons les compromis entre la taille des modèles et les GPU, en mettant en lumière les choix optimaux. La suite examine de plus près les effets transformateurs d'outils et de techniques tels que JAX, ONNX et KernlAI sur ces métriques.

En utilisant l'implémentation Whisper de HuggingFace, nous avons comparé des modèles multilingues pour différentes tailles de lots (1,2,4,8 et 16) sur des CPU et des GPU (T4, V100 et A100) afin d'évaluer la vitesse d'inférence. Tous les benchmarks ont été réalisés sur la partie test du jeu de données HuggingFace : librispeech_asr.

Principales conclusions :

  • Au fur et à mesure que la taille du modèle Whisper augmente, le temps d'inférence devient plus lent car les modèles plus grands ont plus de paramètres.
  • L'exécution de Whisper sur les CPU est sensiblement plus lente que sur les GPU. 
  • Quelle que soit la taille du modèle, le temps d'inférence est le plus rapide sur A100.

En résumé : Le GPU T4 apparaît comme le choix optimal pour prendre en charge tous les modèles Whisper (à l'exception de Whisper large-v2) en ligne (Batch-size = 1) et par lots. Il offre une solution rentable par rapport aux GPU P100 et A100. Bien que la vitesse du P100 soit supérieure à celle du T4 dans les réglages par lots, son coût plus élevé en fait un choix moins économique.

Lisez l'article complet sur notre compte Medium.

Postes connexes

Voir tout le contenu
Aucun résultat n'a été trouvé.
Il n'y a pas de résultats correspondant à ces critères. Essayez de modifier votre recherche.
Grand modèle linguistique
Modèles de fondation
Entreprise
Personnes
Données Structurées
Chat GPT
Durabilité
Voix et son
Développement frontal
Protection des données et sécurité
IA responsable/éthique
Infrastructure
Hardware et capteurs
MLOps
IA générative
Natural Language Processing
Vision par ordinateur