Le déploiement d'un modèle d'apprentissage automatique en production nécessite un examen approfondi de trois facteurs principaux :
Alors que de nombreux articles couvrent la formation, la mise au point et l'explication du papier derrière Whisper, il y a peu de ressources qui se concentrent sur l'exécution de Whisper dans un environnement de production. Dans une série de blogs en deux parties, nous nous penchons sur les aspects pratiques de la mise en œuvre d'OpenAI Whisper dans un environnement de production. Dans la première partie, nous explorons les compromis entre la taille des modèles et les GPU, en mettant en lumière les choix optimaux. La suite examine de plus près les effets transformateurs d'outils et de techniques tels que JAX, ONNX et KernlAI sur ces métriques.
En utilisant l'implémentation Whisper de HuggingFace, nous avons comparé des modèles multilingues pour différentes tailles de lots (1,2,4,8 et 16) sur des CPU et des GPU (T4, V100 et A100) afin d'évaluer la vitesse d'inférence. Tous les benchmarks ont été réalisés sur la partie test du jeu de données HuggingFace : librispeech_asr.
Principales conclusions :
En résumé : Le GPU T4 apparaît comme le choix optimal pour prendre en charge tous les modèles Whisper (à l'exception de Whisper large-v2) en ligne (Batch-size = 1) et par lots. Il offre une solution rentable par rapport aux GPU P100 et A100. Bien que la vitesse du P100 soit supérieure à celle du T4 dans les réglages par lots, son coût plus élevé en fait un choix moins économique.
Lisez l'article complet sur notre compte Medium.