7 novembre 2022

Les défis de la traduction en langue des signes

Les contributeurs
Aucun élément trouvé.
S'abonner à la newsletter
Partager cet article
Ne serait-ce pas génial si les personnes qui ne connaissent pas la langue des signes pouvaient la comprendre ? Qu'est-ce qui nous empêche (chercheurs et développeurs) d'atteindre cet objectif ?

‚Äć

Le travail pr√©sent√© dans ce blog a √©t√© r√©alis√© dans le cadre de mon stage chez ML6 et de ma th√®se de ma√ģtrise √† l'Universit√© de Delft.

‚Äć

‚Äć

Introduction à la langue des signes

‚Äć

La langue des signes (LS) est la langue principale de la communauté sourde et muette. Selon la Fédération mondiale des sourds, plus de 70 millions de personnes sourdes dans le monde utilisent la langue des signes. Il s'agit d'une langue naturelle et complète qui possède ses propres subtilités linguistiques. Chaque langue parlée possède sa propre langue des signes, comme la langue des signes américaine (ASL), la langue des signes chinoise (CSL), la langue des signes allemande (DGS), etc. Au total, il existe environ 300 langues des signes différentes. Les langues des signes ne sont pas une reproduction à l'identique des langues parlées, elles ont leur propre grammaire.

Par exemple, une question bien construite doit s'accompagner d'une position correcte des sourcils. Lorsqu'une personne pose des questions relatives √† qui, o√Ļ, quoi, pourquoi et quand, on s'attend √† ce que les sourcils soient dans une certaine position. Si la question porte sur une situation oui/non, les sourcils doivent √™tre plac√©s d'une certaine mani√®re. La SL n'utilise pas seulement les gestes pour communiquer, mais aussi les expressions faciales, les mouvements et positions des mains et la posture du corps. Tout changement dans ces √©l√©ments peut modifier la signification du signe. C'est pourquoi il est g√©n√©ralement difficile pour quelqu'un qui ne conna√ģt pas les langues des signes de les comprendre.

Tous ces facteurs rendent la traduction en langue parlée difficile. Il existe principalement deux domaines de recherche dans l'interprétation de la langue des signes, à savoir la reconnaissance de la langue des signes (SLR) et la traduction de la langue des signes (SLT), que nous aborderons plus loin dans ce blog et qui utilisent une architecture de pointe pour la traduction. Nous allons également discuter et énumérer certaines des lacunes cruciales dans l'architecture et la recherche actuelle pour la traduction en langue des signes dans un contexte en temps réel.

‚Äć

‚Äć

Quelques faits sur la langue des signes(Source de l'image)

‚Äć

Reconnaissance et traduction de la langue des signes

Le SLR consiste √† reconna√ģtre des actions √† partir de la langue des signes. Elle est consid√©r√©e comme le probl√®me na√Įf de la reconnaissance des gestes, mais ne se limite pas √† l'alphabet et aux chiffres. Elle se concentre sur la reconnaissance d'une s√©quence de signes continus, mais ne tient pas compte des riches structures grammaticales et linguistiques sous-jacentes de la langue des signes, qui diff√®rent de la langue parl√©e. L'objectif principal est d'interpr√©ter les signes, isol√©s ou en s√©quence continue.

D'autre part, l'orthophonie consiste à interpréter la langue des signes en termes de langage naturel avec sa grammaire, en gardant à l'esprit la langue. L'objectif premier de l'orthophonie est de traduire les vidéos en langue des signes en langage parlé, en tenant compte des différents aspects grammaticaux de la langue. Il s'agit d'un problème relativement nouveau et complexe, car il implique la prise en compte des traits du visage et des postures du corps, ainsi que des mouvements et des positions des mains. L'image ci-dessous montre clairement la différence entre le SLR continu et le SLT.

Différence entre SLR et SLT (image tirée de [1])

‚Äć

SLT avec VAC_CSLR + Transformateur

Le paysage actuel de la recherche sur la reconnaissance de la langue des signes dans le cadre d'une interaction humaine en temps r√©el pr√©sente plusieurs lacunes et d√©fis. Pour avoir une meilleure id√©e de ces lacunes, nous avons utilis√© une architecture de pointe pour la reconnaissance continue de la langue des signes propos√©e dans l'article de recherche "Visual alignment constraint (VAC) for continuous sign language recognition (CSLR)" de Min, Yuecong, et al [2]. Afin d'utiliser cette architecture pour le probl√®me de la SLT, nous avons ajout√© un transformateur √† deux couches pour la traduction sur l'architecture VAC_CSLR, comme le montre l'image ci-dessous. En outre, l'ensemble de donn√©es RWTH Phoenix Weather 14T [3] a √©t√© utilis√© pour entra√ģner les deux r√©seaux s√©par√©ment. Cet ensemble de donn√©es est extrait des pr√©visions m√©t√©orologiques diffus√©es par la cha√ģne de t√©l√©vision allemande PHOENIX. Il comprend 9 signataires diff√©rents, des annotations au niveau de la glose avec un vocabulaire de 1 066 signes diff√©rents et des traductions en langue parl√©e allemande avec un vocabulaire de 2 887 mots diff√©rents.

L'architecture est bas√©e sur une traduction en deux √©tapes, Sign-to-Gloss Gloss-to-Text, o√Ļ la premi√®re √©tape consiste √† obtenir des glosses √† partir de la s√©quence vid√©o, et dans l'√©tape suivante, les glosses sont convertis en phrases de langue parl√©e. Apr√®s la phase de formation et de test, le mod√®le a √©t√© utilis√© en temps r√©el. Il a √©t√© test√© sur les diff√©rentes vid√©os avec une traduction en cours, dans des ensembles d'images √† l'aide d'OpenCV. MediaPipe a √©t√© utilis√© pour d√©terminer quand commencer et terminer une s√©quence de signes.

La première étape consistait à utiliser le réseau VAC_CSLR pour obtenir des glosses à partir des séquences vidéo. Le réseau Visual Alignment Constraint se concentre sur l'amélioration de l'extracteur de caractéristiques avec une supervision de l'alignement en proposant deux pertes auxiliaires : la perte Visual Enhancement (VE) et la perte Visual Alignment (VA). La perte VE fournit une supervision directe pour l'extracteur de caractéristiques, qui est lui-même amélioré par l'ajout d'un classificateur auxiliaire sur les caractéristiques visuelles pour obtenir les logits auxiliaires. Cette perte auxiliaire permet à l'extracteur de caractéristiques de faire des prédictions basées uniquement sur les informations visuelles locales.

Ensuite, pour compenser les informations contextuelles qui manquent √† la perte VE, la perte VA est propos√©e. La perte VA est mise en Ňďuvre comme une perte de distillation des connaissances qui consid√®re l'ensemble du r√©seau et l'extracteur de caract√©ristiques visuelles comme les mod√®les de l'enseignant et de l'√©l√®ve, respectivement. La fonction objective finale est compos√©e de la perte primaire de classification temporelle connexionniste (CTC), de la perte d'am√©lioration visuelle et de la perte d'alignement visuel. Dans la deuxi√®me √©tape, pour obtenir la traduction √† partir des gloses, un transformateur √† deux niveaux a √©t√© utilis√© pour maximiser la log-vraisemblance sur toutes les paires glose-texte.
Nous nous sommes référés à l'implémentation originale du transformateur [4] pour plus de détails.

Architecture VAC_CSLR + transformateur
Perte VE, perte VA et perte totale (dans le sens des aiguilles d'une montre, à partir d'en haut à gauche)

‚Äć

‚Äć

Configuration de l'expérience sur le réseau VAC_CLSR + transformateur

‚Äć

Apr√®s l'ajustement des hyperparam√®tres et la validation du mod√®le, ce dernier a √©t√© appliqu√© √† diff√©rentes vid√©os issues des ensembles de donn√©es publi√©s et √† des clips provenant de diverses cha√ģnes d'information favorables aux SL. Les vid√©os ont √©t√© principalement s√©lectionn√©es √† partir de sources SL allemandes, car les mod√®les ont √©t√© entra√ģn√©s sur un ensemble de donn√©es SL allemandes. Nous avons utilis√© des vid√©os al√©atoires de l'ensemble de donn√©es RWTH-Phoenix-Weather 2014, RWTH-Phoenix-Weather 2014-T, et pris des extraits SL de Tagesschau, une √©mission d'information en Allemagne, pour l'√©valuation. Ces vid√©os n'√©taient pas tr√®s longues, juste une phrase (donc, jusqu'√† 8-10 secondes).

Dans le pipeline de traduction, une vidéo est décomposée en images et sur chaque image, un modèle holistique MediaPipe est exécuté, qui identifie les points clés de l'image. Si les points clés identifiés contiennent des points clés à gauche ou à droite, le modèle SLR commence à prendre des images pour la prédiction. L'ensemble des images est déterminé sur la base de la détection des points clés de la main gauche ou droite par le modèle holistique MediaPipe, c'est-à-dire jusqu'à ce que l'une des mains soit dans l'image. Après avoir obtenu les gloses du modèle VAC, ces gloses sont transmises au modèle Transformer qui fournit les traductions parlées. Les traductions finales ont été comparées au texte réel de la séquence vidéo SL.

En outre, nous avons également appliqué différentes transformations aux images capturées dans les vidéos. Voici les transformations appliquées :

Masques de segmentation : Un masque est utilisé pour segmenter une image. Il permet d'identifier les parties d'une image contenant un objet particulier, en l'occurrence un humain. Il a été principalement utilisé pour éviter le bruit dans les images, l'arrière-plan étant insignifiant pour la prédiction.
‚ėÖ Rotation de l'image : Il s'agit d'une op√©ration courante d'augmentation de l'image. L'image est tourn√©e sous diff√©rents angles pour capturer les diff√©rents aspects des caract√©ristiques de l'image dans diff√©rentes orientations.
‚ėÖ Redimensionnement de l'image : Dans cette op√©ration, la taille de l'image a √©t√© modifi√©e par la m√©thode de recadrage central √† diff√©rentes dimensions.
‚ėÖ Mise √† l'√©chelle de l'image : Cette op√©ration est diff√©rente du redimensionnement de l'image car elle s'effectue sur l'ensemble de l'image par r√©√©chantillonnage. Les images ont √©t√© mises √† l'√©chelle de mani√®re al√©atoire entre 0,5 et 1,5 intervalle.

‚Äć

‚Äć

Démonstration courte

‚Äć

‚Äć

Lacunes observées pour l'orthophonie en temps réel

Après plusieurs expériences sur l'architecture avec différentes vidéos, nous avons dressé la liste des lacunes que nous avons observées et qui sont importantes pour améliorer le SLT dans le cadre d'une application réelle. Voici les lacunes observées :

  1. Nombre limité d'ensembles de données disponibles :
    Dans la recherche actuelle sur les SL, presque tous les documents de recherche mentionnent la nécessité de disposer de davantage de données pour améliorer la qualité de la recherche. Les ensembles de données disponibles sont principalement des alphabets, des nombres et des mots individuels. Il existe également des ensembles de données pour la RLC continue qui contiennent des représentations de la glose pour les séquences SL, mais pour l'orthophonie, des traductions parlées sont également nécessaires. Il y a très peu d'ensembles de données qui contiennent également des traductions parlées.
    La raison principale est que le problème de l'orthophonie est relativement nouveau et que pour les annotations de traduction parlée, des interprètes SL humains sont nécessaires pour traduire l'ensemble de l'ensemble de données vidéo. C'est important parce que le problème de la TSL est crucial pour les applications du monde réel qui mettent en relation des personnes ayant des connaissances en TSL et d'autres qui n'ont pas ces connaissances.
    Un autre aspect des ensembles de données limités disponibles est que la plupart des corpus de TSL sont soit indisponibles en raison de la présence de données corrompues ou inaccessibles, soit disponibles sous de lourdes restrictions et conditions de licence. Il est particulièrement difficile d'anonymiser les données SL en raison de la nécessité d'utiliser des caractéristiques faciales et physiques précieuses dans les vidéos de signature, ce qui limite leur diffusion libre.
    ‚Äć
  2. Données limitées à un domaine :
    La plupart des ensembles de donn√©es de r√©f√©rence actuellement disponibles sont collect√©s √† partir d'une certaine source de m√©dias en langue des signes allemande qui est sp√©cifique √† un domaine. Comme l'ensemble de donn√©es de r√©f√©rence actuel pour l'orthophonie, l'ensemble de donn√©es RWTH-Phoenix-Weather 2014T de la langue des signes allemande contient des vid√©os des pr√©visions m√©t√©orologiques quotidiennes diffus√©es par la cha√ģne de t√©l√©vision publique allemande PHOENIX avec une interpr√©tation en langue des signes.
    Si un mod√®le est form√© sur un ensemble de donn√©es sp√©cifique √† un domaine, il est possible qu'il ne se soit pas bien g√©n√©ralis√© et qu'il ait un vocabulaire limit√©, c'est-√†-dire un vocabulaire sp√©cifique au domaine. La plupart des sources de SL √† source ouverte, comme les cha√ģnes d'information, sont sp√©cifiques √† un domaine ; il devient donc difficile de d√©velopper un ensemble de donn√©es qui soit ouvert au domaine.
    ‚Äć
  3. Manque de variété dans les ensembles de données :
    Les ensembles de donn√©es disponibles manquent de vari√©t√© en termes de nombre de signataires, d'orientation physique des signataires et de points de vue de la cam√©ra des signataires. La moyenne des signataires est de 10 √† 20 dans les diff√©rents ensembles de donn√©es, l'ensemble de donn√©es RWTH-Phoenix-Weather 2014T ne comptant que 9 signataires. Un plus grand nombre de locuteurs natifs permet de mieux comprendre la repr√©sentation des signes. En SL, il existe diff√©rents dialectes, ce qui entra√ģne des variations de signes pour un m√™me mot. Il est donc possible que le m√™me mot ou la m√™me phrase soit sign√© de diff√©rentes mani√®res par diff√©rentes personnes, ou que la s√©quence de signes du m√™me mot diff√®re d'une r√©gion √† l'autre. Il est donc pr√©f√©rable de capturer cette variation autant que possible en s√©lectionnant une vari√©t√© de signataires.
    Un autre aspect lié à la variété est le point de vue de la caméra à partir duquel le signataire est capturé pour la collecte de données. En général, pour une application en temps réel, il n'est pas nécessaire que le signataire soit toujours filmé de face par la caméra. Actuellement, plus de 85 % des ensembles de données ne comportent pas de vues multiples.
    ‚Äć
  4. Transférabilité de l'architecture entre différents SL :
    R√©cemment, le nombre de recherches li√©es aux SLR/SLT a augment√©. Les architectures capturent divers aspects d'une s√©quence vid√©o SL. Toutefois, apr√®s avoir examin√© les diff√©rents r√©sultats de ces types de recherche, il appara√ģt clairement que les r√©sultats de pr√©cision(scores WER et BLEU[5]) ne sont pas similaires lorsque la m√™me architecture est essay√©e sur un ensemble de donn√©es linguistique diff√©rent.
    Par exemple, pour une architecture SLT proposée dans l'un des documents de recherche, sur l'ensemble de données RWTH-Phoenix-Weather 2014T, elle a obtenu 22,17 BLEU ; sur le corpus public DGS, seulement 3,2 BLEU (plus c'est élevé, mieux c'est). Par conséquent, ces résultats indiquent que les architectures actuelles ne sont pas adaptées aux applications du monde réel, qu'il faut plus de données pour ces modèles ou que des approches plus sophistiquées sur le plan linguistique sont nécessaires.
    ‚Äć
  5. Restrictions matérielles pour les architectures profondes :
    Une autre lacune technique qui mérite d'être mentionnée concerne les limites matérielles des architectures d'apprentissage profond conventionnelles. L'architecture du modèle qui comporte plusieurs couches avec des millions de paramètres devrait être lourde en taille et pourrait nécessiter des ressources et une puissance de calcul élevées. Souvent, les appareils cibles ont des ressources limitées et le calcul serait lourd, en particulier pour une application en temps réel.
    Il s'agit d'un aspect important à la lumière des applications du monde réel, car ces dernières sont censées être robustes et rapides dans la production de résultats.

‚Äć

‚Äć

Conclusion

Dans ce blog, nous avons montré les lacunes identifiées dans les architectures pour SLR/SLT en considérant et en exploitant les architectures de pointe existantes. Les lacunes que nous avons mentionnées suggèrent qu'il est nécessaire d'améliorer les architectures et les ensembles de données pour réaliser des applications de haut niveau dans le monde réel. Nous concluons que, bien que les architectures actuelles de SLR/SLT puissent ne pas être entièrement équipées pour une application réelle d'interprétation SL, les progrès en termes d'ensembles de données et d'architectures semblent prometteurs. Le problème de l'orthophonie étant difficile, divers aspects de la SL doivent être pris en compte pour le résoudre.

‚Äć

‚Äć

‚Äć

Références

[1] Camgoz, Necati Cihan, et al. "Neural sign language translation". Actes de la conférence de l'IEEE sur la vision informatique et la reconnaissance des formes. 2018.https://openaccess.thecvf.com/content_cvpr_2018/papers/Camgoz_Neural_Sign_Language_CVPR_2018_paper.pdf
[2] Min, Yuecong, et al. "Visual alignment constraint for continuous sign language recognition." Actes de la conférence internationale de l'IEEE/CVF sur la vision par ordinateur. 2021.
https://arxiv.org/abs/2104.02330
[3] Necati Cihan Camgöz, Simon Hadfield, Oscar Koller, Hermann Ney, Richard Bowden, Neural Sign Language Translation, IEEE Conf. on Computer Vision and Pattern Recognition, Salt Lake City, UT, 2018.
https://www-i6.informatik.rwth-aachen.de/~koller/RWTH-PHOENIX-2014-T/
[4] Vaswani, Ashish, et al. "Attention is all you need." Advances in neural information processing systems 30 (2017).
https://proceedings.neurips.cc/paper/2017/hash/3f5ee243547dee91fbd053c1c4a845aa-Abstract.html
[5] Papineni, Kishore, et al. "Bleu : une méthode d'évaluation automatique de la traduction automatique." Actes de la 40e réunion annuelle de l'Association for Computational Linguistics. 2002.
https://aclanthology.org/P02-1040.pdf

‚Äć

Postes connexes

Voir tout le contenu
Aucun résultat n'a été trouvé.
Il n'y a pas de résultats correspondant à ces critères. Essayez de modifier votre recherche.
Grand modèle linguistique
Modèles de fondation
Entreprise
Personnes
Données Structurées
Chat GPT
Durabilité
Voix et son
Développement frontal
Protection des données et sécurité
IA responsable/éthique
Infrastructure
Hardware et capteurs
MLOps
IA générative
Natural Language Processing
Vision par ordinateur