Le chapitre NLP comprend un groupe d'experts qui se concentrent sur tout ce qui concerne le traitement du langage naturel.
Nous essayons d'aborder tous les domaines pertinents du traitement du langage naturel : l'extraction d'informations, la reconnaissance vocale et la modélisation de séquence à séquence.
Nous construisons et déployons des outils, des démonstrations et des modèles pour lancer des projets ML6 et montrer la valeur du traitement du langage naturel dans une grande variété de domaines.
BUILD
La recherche sur le traitement automatique des langues se déroule à une vitesse fulgurante. En explorant les articles et les sujets tendances et pertinents sur l'IA, nous restons au courant des dernières nouveautés dans notre domaine.
Aucun Transformer n'est laissé pour compte !
PARTAGEZ
Nous aimons montrer et partager notre travail. Rendez-vous sur nos cas d'utilisation pour voir ce que nous faisons ou pour vous amuser avec l'une de nos démos alimentées par le NLP.
Venez nous voir sur Huggingface et Github également !
Démos
Résumé des termes et conditions 📝
Appliquer un outil de résumé extractif et abstractif de pointe aux conditions d'utilisation des sites internet afin de vous concentrer rapidement et de manière concise sur les points principaux.
DOCRtor : simuler les erreurs d'OCR les plus courantes pour les textes en néerlandais et utiliser le modèle ByT5 basé sur les caractères pour les corriger.
Avec le développement de la mondialisation et l'augmentation actuelle du nombre de personnes qui s'installent à l'étranger, il devient de plus en plus important d'apprendre une nouvelle langue de manière abordable et amusante. Parlangi est un fournisseur d'apprentissage en ligne qui met en relation des locuteurs natifs et des apprenants d'une langue spécifique. Ces derniers sont invités à utiliser une plateforme d'appels vidéo pour discuter et améliorer les compétences linguistiques de l'apprenant.
À l'heure actuelle, Parlangi propose des sujets de conversation différents toutes les 10 minutes afin d'engager les interlocuteurs. Bien que cette approche soit pertinente pour maintenir la conversation, elle présente quelques inconvénients potentiels :
Intrusif: Une perturbation du flux de la conversation peut se produire si les deux interlocuteurs sont engagés dans le sujet de la conversation et qu'un changement de sujet surgit.
Peu fréquent : Il peut être préférable de suggérer un changement de sujet dès le début si le sujet de conversation n'intéresse pas les deux locuteurs (dominé par le silence) ou si le sujet n'intéresse que le locuteur natif (ce qui va à l'encontre de l'objectif de l'appel vidéo qui est d'améliorer les compétences orales des locuteurs non natifs).
Objectif
L'objectif de ce projet est d'améliorer la fonction de suggestion de sujets de conversation et de la rendre plus dynamique. Cela peut aider à fournir une expérience plus amusante et plus satisfaisante pour les utilisateurs de la plate-forme.
Pour ce faire, il faut déterminer à la fois la fréquence et la durée des silences de la conversation ainsi que la fréquence de la parole des différents locuteurs. Ces informations peuvent être utilisées pour quantifier le niveau global d'engagement des locuteurs et suggérer un changement de sujet de conversation à un moment approprié.
Une méthode pour aborder ce problème est d'appliquer des techniques de diarisation du locuteur sur l'enregistrement audio brut. La diarisation du locuteur vise à répondre à la question "qui a parlé quand". Avec cela, il est possible de détecter à la fois les moments de "parole" des locuteurs individuels et les segments de "silence", comme illustré ci-dessous.
Ce stage est non seulement un excellent moyen de tirer parti de vos compétences en matière d'audio et d'informatique périphérique, mais aussi de faire le bien. Votre stage peut être complété par un article de blog où vous partagez vos connaissances et la façon dont vous avez aidé Parlangi et ses utilisateurs en améliorant leur expérience d'apprentissage d'une nouvelle langue.
Méthodologie
Vous pouvez prendre une longueur d'avance en travaillant sur ce projet, car une partie du travail a déjà été effectuée. Il existe de nombreuses bibliothèques de diarisation qui implémentent déjà des pipelines de diarisation pour diariser des enregistrements audio. Une exploration initiale de ces bibliothèques a été faite par ML6. Cependant, il reste encore beaucoup de travail à faire pour mettre cet outil en pratique.
Un cadre de diarisation approprié doit être choisi pour cette tâche. Différents compromis en termes de précision, de vitesse de détection et de ressources doivent être envisagés.
Un outil d'extension doit être mis en place pour accéder au flux audio à partir de la plateforme vidéo open source.
Les résultats de l'algorithme de diarisation seront utilisés dans un algorithme de boucle de contrôle qui propose des sujets de conversation de manière dynamique.
Au cours de ce stage, vous devrez :
Explorer plusieurs algorithmes de diarisation à la pointe de la technologie.
Mettre en place un outil d'extension pour accéder aux données audio brutes de la plateforme vidéo.
Développer une solution de bout en bout pour la suggestion dynamique de sujets et l'intégrer à la plateforme Parlangi.
Rédigez un article de blog résumant votre travail...
Faites le bien !
Profil / Compétences requises
Solides capacités d'analyse, connaissance de différentes méthodes statistiques et familiarité avec les études de recherche.
Expérience de travail en développement Java pour construire un outil qui s'interface avec la plateforme vidéo.
Intérêt marqué pour le traitement de la parole/du son [de préférence].
Familiarité avec des outils comme Python.
Excellente communication orale et écrite en anglais.
Vous êtes actuellement en train d'obtenir un diplôme en informatique ou dans un domaine connexe.
Durée du stage
La durée du stage peut être flexible et dépend de la préférence du candidat et des exigences du projet. La durée estimée pour ce projet spécifique est de 6 à 8 semaines :
Semaine 1 : Se familiariser avec les algorithmes de diarisation SoTA et la plateforme vidéo open source.
Semaine 2-3 : Construire un outil qui s'interface avec la plateforme vidéo pour obtenir un flux audio.
Semaine 4-5 : Intégrer l'algorithme de diarisation avec le flux audio et construire la logique du flux de contrôle pour les suggestions de sujets dynamiques.
Semaine 6 : Valider les résultats de l'algorithme et rédiger un billet de blogue
Chapitres
Nos stages et nos thèses sont liés à nos chapitres. Un chapitre est une équipe inter-squad composée d'experts dans un domaine spécifique afin de permettre la construction et le partage des connaissances entre les projets. Les chapitres construisent des connaissances en effectuant des recherches appliquées et en recueillant les enseignements des projets. Ce stage s'inscrit dans le cadre du groupe de travail Speech/Audio qui fait partie du chapitre Natural Language Processing (NLP).
Superviseurs
Thomas Dehaene : Chef de chapitre
Lisa Becker : Ingénieur en apprentissage automatique et responsable du groupe de travail sur la parole (superviseur quotidien)
Références
Exploration de l'algorithme de diarisation ML6[lien].