7 novembre 2022

Les défis de la traduction en langue des signes

Les contributeurs
Aucun élément trouvé.
S'abonner à la newsletter
Partager cet article
Ne serait-ce pas génial si les personnes qui ne connaissent pas la langue des signes pouvaient la comprendre ? Qu'est-ce qui nous empêche (chercheurs et développeurs) d'atteindre cet objectif ?

Le travail présenté dans ce blog a été réalisé dans le cadre de mon stage chez ML6 et de ma thèse de maîtrise à l'Université de Delft.

Introduction à la langue des signes

La langue des signes (LS) est la langue principale de la communauté sourde et muette. Selon la Fédération mondiale des sourds, plus de 70 millions de personnes sourdes dans le monde utilisent la langue des signes. Il s'agit d'une langue naturelle et complète qui possède ses propres subtilités linguistiques. Chaque langue parlée possède sa propre langue des signes, comme la langue des signes américaine (ASL), la langue des signes chinoise (CSL), la langue des signes allemande (DGS), etc. Au total, il existe environ 300 langues des signes différentes. Les langues des signes ne sont pas une reproduction à l'identique des langues parlées, elles ont leur propre grammaire.

Par exemple, une question bien construite doit s'accompagner d'une position correcte des sourcils. Lorsqu'une personne pose des questions relatives à qui, où, quoi, pourquoi et quand, on s'attend à ce que les sourcils soient dans une certaine position. Si la question porte sur une situation oui/non, les sourcils doivent être placés d'une certaine manière. La SL n'utilise pas seulement les gestes pour communiquer, mais aussi les expressions faciales, les mouvements et positions des mains et la posture du corps. Tout changement dans ces éléments peut modifier la signification du signe. C'est pourquoi il est généralement difficile pour quelqu'un qui ne connaît pas les langues des signes de les comprendre.

Tous ces facteurs rendent la traduction en langue parlée difficile. Il existe principalement deux domaines de recherche dans l'interprétation de la langue des signes, à savoir la reconnaissance de la langue des signes (SLR) et la traduction de la langue des signes (SLT), que nous aborderons plus loin dans ce blog et qui utilisent une architecture de pointe pour la traduction. Nous allons également discuter et énumérer certaines des lacunes cruciales dans l'architecture et la recherche actuelle pour la traduction en langue des signes dans un contexte en temps réel.

Quelques faits sur la langue des signes(Source de l'image)

Reconnaissance et traduction de la langue des signes

Le SLR consiste à reconnaître des actions à partir de la langue des signes. Elle est considérée comme le problème naïf de la reconnaissance des gestes, mais ne se limite pas à l'alphabet et aux chiffres. Elle se concentre sur la reconnaissance d'une séquence de signes continus, mais ne tient pas compte des riches structures grammaticales et linguistiques sous-jacentes de la langue des signes, qui diffèrent de la langue parlée. L'objectif principal est d'interpréter les signes, isolés ou en séquence continue.

D'autre part, l'orthophonie consiste à interpréter la langue des signes en termes de langage naturel avec sa grammaire, en gardant à l'esprit la langue. L'objectif premier de l'orthophonie est de traduire les vidéos en langue des signes en langage parlé, en tenant compte des différents aspects grammaticaux de la langue. Il s'agit d'un problème relativement nouveau et complexe, car il implique la prise en compte des traits du visage et des postures du corps, ainsi que des mouvements et des positions des mains. L'image ci-dessous montre clairement la différence entre le SLR continu et le SLT.

Différence entre SLR et SLT (image tirée de [1])

SLT avec VAC_CSLR + Transformateur

Le paysage actuel de la recherche sur la reconnaissance de la langue des signes dans le cadre d'une interaction humaine en temps réel présente plusieurs lacunes et défis. Pour avoir une meilleure idée de ces lacunes, nous avons utilisé une architecture de pointe pour la reconnaissance continue de la langue des signes proposée dans l'article de recherche "Visual alignment constraint (VAC) for continuous sign language recognition (CSLR)" de Min, Yuecong, et al [2]. Afin d'utiliser cette architecture pour le problème de la SLT, nous avons ajouté un transformateur à deux couches pour la traduction sur l'architecture VAC_CSLR, comme le montre l'image ci-dessous. En outre, l'ensemble de données RWTH Phoenix Weather 14T [3] a été utilisé pour entraîner les deux réseaux séparément. Cet ensemble de données est extrait des prévisions météorologiques diffusées par la chaîne de télévision allemande PHOENIX. Il comprend 9 signataires différents, des annotations au niveau de la glose avec un vocabulaire de 1 066 signes différents et des traductions en langue parlée allemande avec un vocabulaire de 2 887 mots différents.

L'architecture est basée sur une traduction en deux étapes, Sign-to-Gloss Gloss-to-Text, où la première étape consiste à obtenir des glosses à partir de la séquence vidéo, et dans l'étape suivante, les glosses sont convertis en phrases de langue parlée. Après la phase de formation et de test, le modèle a été utilisé en temps réel. Il a été testé sur les différentes vidéos avec une traduction en cours, dans des ensembles d'images à l'aide d'OpenCV. MediaPipe a été utilisé pour déterminer quand commencer et terminer une séquence de signes.

La première étape consistait à utiliser le réseau VAC_CSLR pour obtenir des glosses à partir des séquences vidéo. Le réseau Visual Alignment Constraint se concentre sur l'amélioration de l'extracteur de caractéristiques avec une supervision de l'alignement en proposant deux pertes auxiliaires : la perte Visual Enhancement (VE) et la perte Visual Alignment (VA). La perte VE fournit une supervision directe pour l'extracteur de caractéristiques, qui est lui-même amélioré par l'ajout d'un classificateur auxiliaire sur les caractéristiques visuelles pour obtenir les logits auxiliaires. Cette perte auxiliaire permet à l'extracteur de caractéristiques de faire des prédictions basées uniquement sur les informations visuelles locales.

Ensuite, pour compenser les informations contextuelles qui manquent à la perte VE, la perte VA est proposée. La perte VA est mise en œuvre comme une perte de distillation des connaissances qui considère l'ensemble du réseau et l'extracteur de caractéristiques visuelles comme les modèles de l'enseignant et de l'élève, respectivement. La fonction objective finale est composée de la perte primaire de classification temporelle connexionniste (CTC), de la perte d'amélioration visuelle et de la perte d'alignement visuel. Dans la deuxième étape, pour obtenir la traduction à partir des gloses, un transformateur à deux niveaux a été utilisé pour maximiser la log-vraisemblance sur toutes les paires glose-texte.
Nous nous sommes référés à l'implémentation originale du transformateur [4] pour plus de détails.

Architecture VAC_CSLR + transformateur
Perte VE, perte VA et perte totale (dans le sens des aiguilles d'une montre, à partir d'en haut à gauche)

Configuration de l'expérience sur le réseau VAC_CLSR + transformateur

Après l'ajustement des hyperparamètres et la validation du modèle, ce dernier a été appliqué à différentes vidéos issues des ensembles de données publiés et à des clips provenant de diverses chaînes d'information favorables aux SL. Les vidéos ont été principalement sélectionnées à partir de sources SL allemandes, car les modèles ont été entraînés sur un ensemble de données SL allemandes. Nous avons utilisé des vidéos aléatoires de l'ensemble de données RWTH-Phoenix-Weather 2014, RWTH-Phoenix-Weather 2014-T, et pris des extraits SL de Tagesschau, une émission d'information en Allemagne, pour l'évaluation. Ces vidéos n'étaient pas très longues, juste une phrase (donc, jusqu'à 8-10 secondes).

Dans le pipeline de traduction, une vidéo est décomposée en images et sur chaque image, un modèle holistique MediaPipe est exécuté, qui identifie les points clés de l'image. Si les points clés identifiés contiennent des points clés à gauche ou à droite, le modèle SLR commence à prendre des images pour la prédiction. L'ensemble des images est déterminé sur la base de la détection des points clés de la main gauche ou droite par le modèle holistique MediaPipe, c'est-à-dire jusqu'à ce que l'une des mains soit dans l'image. Après avoir obtenu les gloses du modèle VAC, ces gloses sont transmises au modèle Transformer qui fournit les traductions parlées. Les traductions finales ont été comparées au texte réel de la séquence vidéo SL.

En outre, nous avons également appliqué différentes transformations aux images capturées dans les vidéos. Voici les transformations appliquées :

Masques de segmentation : Un masque est utilisé pour segmenter une image. Il permet d'identifier les parties d'une image contenant un objet particulier, en l'occurrence un humain. Il a été principalement utilisé pour éviter le bruit dans les images, l'arrière-plan étant insignifiant pour la prédiction.
★ Rotation de l'image : Il s'agit d'une opération courante d'augmentation de l'image. L'image est tournée sous différents angles pour capturer les différents aspects des caractéristiques de l'image dans différentes orientations.
★ Redimensionnement de l'image : Dans cette opération, la taille de l'image a été modifiée par la méthode de recadrage central à différentes dimensions.
★ Mise à l'échelle de l'image : Cette opération est différente du redimensionnement de l'image car elle s'effectue sur l'ensemble de l'image par rééchantillonnage. Les images ont été mises à l'échelle de manière aléatoire entre 0,5 et 1,5 intervalle.

Démonstration courte

Lacunes observées pour l'orthophonie en temps réel

Après plusieurs expériences sur l'architecture avec différentes vidéos, nous avons dressé la liste des lacunes que nous avons observées et qui sont importantes pour améliorer le SLT dans le cadre d'une application réelle. Voici les lacunes observées :

  1. Nombre limité d'ensembles de données disponibles :
    Dans la recherche actuelle sur les SL, presque tous les documents de recherche mentionnent la nécessité de disposer de davantage de données pour améliorer la qualité de la recherche. Les ensembles de données disponibles sont principalement des alphabets, des nombres et des mots individuels. Il existe également des ensembles de données pour la RLC continue qui contiennent des représentations de la glose pour les séquences SL, mais pour l'orthophonie, des traductions parlées sont également nécessaires. Il y a très peu d'ensembles de données qui contiennent également des traductions parlées.
    La raison principale est que le problème de l'orthophonie est relativement nouveau et que pour les annotations de traduction parlée, des interprètes SL humains sont nécessaires pour traduire l'ensemble de l'ensemble de données vidéo. C'est important parce que le problème de la TSL est crucial pour les applications du monde réel qui mettent en relation des personnes ayant des connaissances en TSL et d'autres qui n'ont pas ces connaissances.
    Un autre aspect des ensembles de données limités disponibles est que la plupart des corpus de TSL sont soit indisponibles en raison de la présence de données corrompues ou inaccessibles, soit disponibles sous de lourdes restrictions et conditions de licence. Il est particulièrement difficile d'anonymiser les données SL en raison de la nécessité d'utiliser des caractéristiques faciales et physiques précieuses dans les vidéos de signature, ce qui limite leur diffusion libre.
  2. Données limitées à un domaine :
    La plupart des ensembles de données de référence actuellement disponibles sont collectés à partir d'une certaine source de médias en langue des signes allemande qui est spécifique à un domaine. Comme l'ensemble de données de référence actuel pour l'orthophonie, l'ensemble de données RWTH-Phoenix-Weather 2014T de la langue des signes allemande contient des vidéos des prévisions météorologiques quotidiennes diffusées par la chaîne de télévision publique allemande PHOENIX avec une interprétation en langue des signes.
    Si un modèle est formé sur un ensemble de données spécifique à un domaine, il est possible qu'il ne se soit pas bien généralisé et qu'il ait un vocabulaire limité, c'est-à-dire un vocabulaire spécifique au domaine. La plupart des sources de SL à source ouverte, comme les chaînes d'information, sont spécifiques à un domaine ; il devient donc difficile de développer un ensemble de données qui soit ouvert au domaine.
  3. Manque de variété dans les ensembles de données :
    Les ensembles de données disponibles manquent de variété en termes de nombre de signataires, d'orientation physique des signataires et de points de vue de la caméra des signataires. La moyenne des signataires est de 10 à 20 dans les différents ensembles de données, l'ensemble de données RWTH-Phoenix-Weather 2014T ne comptant que 9 signataires. Un plus grand nombre de locuteurs natifs permet de mieux comprendre la représentation des signes. En SL, il existe différents dialectes, ce qui entraîne des variations de signes pour un même mot. Il est donc possible que le même mot ou la même phrase soit signé de différentes manières par différentes personnes, ou que la séquence de signes du même mot diffère d'une région à l'autre. Il est donc préférable de capturer cette variation autant que possible en sélectionnant une variété de signataires.
    Un autre aspect lié à la variété est le point de vue de la caméra à partir duquel le signataire est capturé pour la collecte de données. En général, pour une application en temps réel, il n'est pas nécessaire que le signataire soit toujours filmé de face par la caméra. Actuellement, plus de 85 % des ensembles de données ne comportent pas de vues multiples.
  4. Transférabilité de l'architecture entre différents SL :
    Récemment, le nombre de recherches liées aux SLR/SLT a augmenté. Les architectures capturent divers aspects d'une séquence vidéo SL. Toutefois, après avoir examiné les différents résultats de ces types de recherche, il apparaît clairement que les résultats de précision(scores WER et BLEU[5]) ne sont pas similaires lorsque la même architecture est essayée sur un ensemble de données linguistique différent.
    Par exemple, pour une architecture SLT proposée dans l'un des documents de recherche, sur l'ensemble de données RWTH-Phoenix-Weather 2014T, elle a obtenu 22,17 BLEU ; sur le corpus public DGS, seulement 3,2 BLEU (plus c'est élevé, mieux c'est). Par conséquent, ces résultats indiquent que les architectures actuelles ne sont pas adaptées aux applications du monde réel, qu'il faut plus de données pour ces modèles ou que des approches plus sophistiquées sur le plan linguistique sont nécessaires.
  5. Restrictions matérielles pour les architectures profondes :
    Une autre lacune technique qui mérite d'être mentionnée concerne les limites matérielles des architectures d'apprentissage profond conventionnelles. L'architecture du modèle qui comporte plusieurs couches avec des millions de paramètres devrait être lourde en taille et pourrait nécessiter des ressources et une puissance de calcul élevées. Souvent, les appareils cibles ont des ressources limitées et le calcul serait lourd, en particulier pour une application en temps réel.
    Il s'agit d'un aspect important à la lumière des applications du monde réel, car ces dernières sont censées être robustes et rapides dans la production de résultats.

Conclusion

Dans ce blog, nous avons montré les lacunes identifiées dans les architectures pour SLR/SLT en considérant et en exploitant les architectures de pointe existantes. Les lacunes que nous avons mentionnées suggèrent qu'il est nécessaire d'améliorer les architectures et les ensembles de données pour réaliser des applications de haut niveau dans le monde réel. Nous concluons que, bien que les architectures actuelles de SLR/SLT puissent ne pas être entièrement équipées pour une application réelle d'interprétation SL, les progrès en termes d'ensembles de données et d'architectures semblent prometteurs. Le problème de l'orthophonie étant difficile, divers aspects de la SL doivent être pris en compte pour le résoudre.

Références

[1] Camgoz, Necati Cihan, et al. "Neural sign language translation". Actes de la conférence de l'IEEE sur la vision informatique et la reconnaissance des formes. 2018.https://openaccess.thecvf.com/content_cvpr_2018/papers/Camgoz_Neural_Sign_Language_CVPR_2018_paper.pdf
[2] Min, Yuecong, et al. "Visual alignment constraint for continuous sign language recognition." Actes de la conférence internationale de l'IEEE/CVF sur la vision par ordinateur. 2021.
https://arxiv.org/abs/2104.02330
[3] Necati Cihan Camgöz, Simon Hadfield, Oscar Koller, Hermann Ney, Richard Bowden, Neural Sign Language Translation, IEEE Conf. on Computer Vision and Pattern Recognition, Salt Lake City, UT, 2018.
https://www-i6.informatik.rwth-aachen.de/~koller/RWTH-PHOENIX-2014-T/
[4] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
https://proceedings.neurips.cc/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-Abstract.html
[5] Papineni, Kishore, et al. "Bleu : une méthode d'évaluation automatique de la traduction automatique." Actes de la 40e réunion annuelle de l'Association for Computational Linguistics. 2002.
https://aclanthology.org/P02-1040.pdf

Postes connexes

Voir tout le contenu
Aucun résultat n'a été trouvé.
Il n'y a pas de résultats correspondant à ces critères. Essayez de modifier votre recherche.
Grand modèle linguistique
Modèles de fondation
Entreprise
Personnes
Données Structurées
Chat GPT
Durabilité
Voix et son
Développement frontal
Protection des données et sécurité
IA responsable/éthique
Infrastructure
Hardware et capteurs
MLOps
IA générative
Natural Language Processing
Vision par ordinateur