Le chapitre Vision ML comprend un groupe d'experts qui se concentrent sur tout ce qui concerne la vision par ordinateur.
En tant qu'unité spéciale dans la vision par ordinateur, notre objectif est de rester au courant des derniers développements dans ce domaine et de partager nos connaissances avec nos collègues, nos clients, la communauté open-source et le grand public. Les domaines dans lesquels nous sommes actifs en ce moment sont la détection d'objets, l'analyse vidéo, l'IA générative, la vision des contours et l'inspection visuelle.
Développer des modèles d'apprentissage automatique personnalisés et performants pour détecter des objets à grande vitesse, à haute résolution et dans des circonstances réelles difficiles. Des cas d'utilisation différents exigent des approches différentes en matière de prétraitement des données, de modélisation, de réglage et de configuration.
Analyse vidéo
Utiliser le suivi d'objets sur plusieurs images pour faciliter la détection et la segmentation des objets. Détecter des phénomènes ou des activités qui ne peuvent être reconnus qu'en tenant compte de l'ensemble du flux d'images. L'analyse vidéo présente des défis uniques en termes de gestion des ressources et d'architecture des modèles.
IA générative
Les réseaux neuronaux peuvent transférer des visages, des poses, des attributs stylistiques ou générer des instances inédites de visages, de personnes, d'objets ou même d'œuvres d'art sur base d'exemples. Nous ne faisons qu'effleurer la surface du potentiel de la modélisation générative dans les médias mais aussi dans le design, le commerce de détail et d'autres domaines. Pour plus d'informations, visitez gener8.ai
Vision en périphérie
Le traitement de la vidéo en périphérie, à proximité de la caméra, peut réduire le trafic réseau et accroître la sécurité des données. Parmi les exemples d'applications, citons une solution très performante pour l'anonymisation et la réidentification en périphérie. Le traitement en périphérie présente un certain nombre de défis en termes de performances, d'architecture, d'opérations et de sécurité.
Contrôle visuel
Contrôle et assurance de la qualité par vision, basé sur les dernières avancées en matière de vision industrielle. Grâce à l'apprentissage automatique, nous pouvons détecter un large éventail de défauts sur un ensemble diversifié de produits. Grâce à ces algorithmes SOTA, les processus de production peuvent être surveillés, pilotés et optimisés.
Démos
Comment repérer un deepfake ?
Cette vidéo explique et illustre les petits indices qui peuvent vous aider à distinguer les deepfakes des vraies vidéos.
Dans le contexte de l'analyse vidéo, la reconnaissance d'actions est la tâche consistant à reconnaître des actions (humaines) dans une vidéo [1]. Les actions vont des activités extrêmes en plein air, comme la descente en rappel, aux activités quotidiennes, comme brouiller des œufs (figure 1). La reconnaissance d'actions est généralement aussi utilisée pour décrire le domaine plus large de la détection d'événements, par exemple dans les sports. Elle est considérée comme l'une des tâches les plus importantes de la compréhension vidéo. Elle a de nombreuses applications dans le monde réel, notamment l'analyse du comportement, la recherche de vidéos, l'interaction homme-robot, les jeux et le divertissement. La reconnaissance d'action peut être divisée en classification et localisation. La classification implique uniquement l'attribution d'une étiquette à l'ensemble de la vidéo, tandis que la localisation implique en plus la localisation des actions dans l'espace et/ou le temps.
Figure 1. Exemples de classes d'actions vidéo.
Avec l'émergence de grands ensembles de données de haute qualité au cours de la dernière décennie, la recherche sur la reconnaissance d'actions vidéo a suscité un intérêt croissant. Les ensembles de données ont augmenté tant au niveau du nombre de vidéos que du nombre de classes. Ils sont passés de 7 000 vidéos et 51 classes avec HMDB51 à 8 millions de vidéos et 3 862 classes dans YouTube8M. En outre, le rythme auquel de nouveaux ensembles de données sont publiés augmente : de 3 ensembles de données en 2011-2015 à 13 ensembles de données en 2016-2020. Grâce à la disponibilité de ces jeux de données croissants et à l'innovation constante dans l'apprentissage profond, les modèles de reconnaissance d'action s'améliorent rapidement.
Défis
Malgré un intérêt croissant, la reconnaissance d'actions vidéo doit encore relever des défis majeurs pour développer des algorithmes efficaces. Certains de ces défis sont résumés ci-dessous :
Les ensembles de données définissent généralement un espace d'étiquetage limité. Les actions humaines sont des concepts composites et la hiérarchie de ces concepts est mal définie. De plus, chaque action a généralement plusieurs descriptions, à différents niveaux de granularité. Enfin, l'étiquetage des vidéos prend du temps et est ambigu. Pour annoter correctement toutes les actions, il faut regarder toute la vidéo et marquer le début et la fin de chaque action. Pour compliquer encore les choses, ces actions peuvent se chevaucher ou même constituer ensemble une action combinée de niveau supérieur.
Les actions humaines présentent de fortes variations intra et inter-classes. La même action peut être exécutée à des vitesses différentes selon les points de vue. Par ailleurs, certaines actions partagent des mouvements et/ou des environnements similaires qu'il est difficile de distinguer.
La reconnaissance d'une action nécessite la compréhension de la dynamique temporelle à court et à long terme. La durée d'une action peut aller de quelques secondes à plusieurs heures. Une action peut impliquer différents types d'informations temporelles et le modèle doit être capable de les capturer. En outre, les modèles doivent gérer différentes perspectives. Il est clair que des modèles sophistiqués sont nécessaires pour saisir les aspects les plus difficiles de la reconnaissance des actions.
La dimension temporelle supplémentaire impliquée dans la reconnaissance d'actions entraîne un coût de calcul élevé, tant pour l'apprentissage que pour l'inférence. Les jeux de données actuels contiennent généralement des actions d'environ 10 secondes. À raison de 25 images par seconde, cela donne 250 images à analyser. La dimension temporelle ajoute donc une complexité significative par rapport à l'analyse d'images. Non seulement le nombre d'images à traiter est plus élevé, mais la dynamique entre ces images nécessite un traitement supplémentaire. En substance, la reconnaissance d'action peut être considérée comme une tâche de modélisation de séquence.
Exemples de sujets
Détection des événements sportifs
Mots clés : reconnaissance d'actions, détection d'événements, sports, analyse vidéo
Bien qu'elle soit limitée à un sous-ensemble d'actions, la détection d'événements dans les sports est très difficile. Un événement sportif n'est généralement pas défini uniquement par les actions d'une seule personne, mais plutôt par une combinaison des actions de plusieurs personnes et de leur environnement. Par conséquent, la modélisation de l'environnement et de l'emplacement des joueurs peut être nécessaire pour bien comprendre le jeu sportif en cours.
La détection des événements sportifs peut améliorer considérablement l'expérience de l'utilisateur, tant pendant qu'après le match. Pendant le match, les statistiques pertinentes peuvent être affichées à l'écran sans qu'il soit nécessaire de saisir manuellement les données. Après le match, des résumés vidéo automatiques peuvent être créés. En outre, les statistiques recueillies peuvent être reliées aux matchs précédents pour créer des rapports et des tableaux de bord intéressants.
Objectif
Recherchez et créez un algorithme d'apprentissage automatique pour détecter des événements, tels qu'un tacle, une tentative de but ou une culbute, dans des jeux sportifs (par exemple, le football, le hockey sur gazon, le cyclisme). L'algorithme doit être conçu en tenant compte des coûts de calcul et de la rareté des données. L'adaptation au domaine efficace en termes de données par l'apprentissage par transfert est une solution possible.
Transmettre des flux vidéo à un centre de données centralisé pour qu'ils y soient traités est à la fois coûteux et nécessite un investissement élevé dans l'infrastructure, en particulier pour les cas d'utilisation où un grand nombre de caméras est nécessaire. En outre, la transmission sur le réseau de vidéos contenant des données confidentielles présente des risques pour la sécurité. Dans le même temps, des dispositifs de traitement périphérique légers et toujours plus puissants, équipés de GPU et de TPU, ont fait leur apparition sur le marché. D'où l'intérêt croissant pour le traitement vidéo en périphérie, alors que seules les statistiques et/ou les représentations sont transmises et traitées de manière centralisée. Cela permet de réduire les besoins en infrastructure et d'améliorer la sécurité puisque les images ne doivent pas quitter l'emplacement de la caméra. Les cas d'utilisation les plus notables à cet égard sont la surveillance et le contrôle du trafic, de l'environnement et d'autres types de contrôle.
Objectif
Rechercher et créer un algorithme optimisé de détection/reconnaissance d'actions pour des périphériques tels que le NVIDIA Jetson Xavier, à utiliser dans un contexte de surveillance. Le cas d'utilisation particulier est ouvert et pourrait être lié au trafic, aux animaux, aux personnes ou à d'autres phénomènes, y compris le cas sportif ci-dessus. L'accent sera mis sur la comparaison, la sélection et l'optimisation de différents modèles d'apprentissage automatique pour une utilisation en périphérie. Les techniques qui peuvent être utilisées pour l'optimisation comprennent la quantification, l'élagage et la distillation des connaissances.
Détection d'anomalies
Dans le contexte des vidéos, l'objectif de la détection des anomalies est de localiser temporellement ou spatialement les événements anormaux dans la vidéo [2]. Les événements anormaux sont définis comme des événements ou des activités qui sont inhabituels et signifient un comportement irrégulier (figure 3). La localisation temporelle consiste à identifier les images de début et de fin de l'événement anormal. La localisation spatiale consiste à identifier spatialement l'anomalie dans chaque image correspondante. La détection d'anomalies vidéo a de nombreuses applications dans le domaine de la surveillance, comme la détection d'activités illégales, d'accidents de la route et d'événements inhabituels. Elle permet non seulement d'accroître l'efficacité de la surveillance, mais aussi de réduire considérablement la charge de la surveillance manuelle en direct en permettant aux humains de se concentrer sur les événements susceptibles de présenter un intérêt.
Figure 3. Exemples d'événements anormaux provenant de quatre ensembles de données.
La recherche sur la détection des anomalies vidéo se développe en raison de l'augmentation du nombre de caméras utilisées dans les lieux publics. Les caméras sont déployées sur les places, dans les rues, aux intersections, dans les banques, les centres commerciaux, etc. afin d'accroître la sécurité publique. Cependant, les capacités des agences de surveillance n'ont pas suivi le rythme. L'utilisation des caméras de surveillance présente des lacunes flagrantes en raison d'un rapport déséquilibré entre caméras et contrôleurs humains.
Défis
La détection des anomalies vidéo n'en est encore qu'à ses débuts et son déploiement efficace se heurte à des difficultés majeures. Ces défis sont résumés ci-dessous :
Les événements anormaux sont complexes, divers et généralement très rares. Il est difficile de trouver des ensembles de données d'anomalies vidéo de grande taille et diversifiés. Par conséquent, diverses techniques de formation semi-supervisée sont utilisées pour surmonter la pénurie de données étiquetées. En outre, les modèles sont généralement formés sur un très petit sous-ensemble d'événements anormaux et ne se transposent pas bien à d'autres domaines. Il ne suffit pas de modéliser un comportement normal et de signaler tout ce qui s'en écarte comme une anomalie.
Les anomalies vidéo sont très diverses et peuvent s'étendre de quelques secondes à plusieurs heures. Un modèle doit être capable de saisir les informations temporelles à court et à long terme.
Comme la plupart des techniques d'analyse vidéo, la détection des anomalies vidéo présente une grande complexité de calcul en raison de la nécessité de modéliser les séquences temporelles. En outre, elle est couramment utilisée pour alléger la charge de la surveillance en direct par CCTV. Un algorithme efficace doit donc être capable de signaler les événements anormaux en temps réel.
La détection de la violence et des schémas nuisibles est devenue un domaine de recherche actif en raison de l'abondance des caméras de surveillance et de la nécessité de réagir rapidement aux incidents pour éviter toute escalade. Parmi tous les événements anormaux, la violence est l'un des plus difficiles à détecter. Elle peut se produire à tout moment, dans n'importe quel environnement, et il n'existe pas de scénario fixe. Une réponse rapide aux événements violents peut considérablement améliorer la sécurité publique. En outre, elle peut aider à établir des rapports d'incidents et des statistiques automatisées pour prévenir de futurs incidents.
Objectif
Recherchez et créez un algorithme d'apprentissage automatique pour détecter les événements violents dans les vidéos de surveillance. L'algorithme doit être conçu en tenant compte des coûts de calcul et de la rareté des données. Des séquences de bagarres dans d'autres domaines, par exemple le hockey sur glace, peuvent être utilisées pour constituer un ensemble de données.
Transmettre des flux vidéo à un centre de données centralisé pour qu'ils y soient traités est à la fois coûteux et nécessite un investissement élevé dans l'infrastructure, en particulier pour les cas d'utilisation où un grand nombre de caméras est nécessaire. En outre, la transmission sur le réseau de vidéos contenant des données confidentielles présente des risques pour la sécurité. Dans le même temps, des dispositifs de traitement périphérique légers et toujours plus puissants, équipés de GPU et de TPU, ont fait leur apparition sur le marché. D'où l'intérêt croissant pour le traitement vidéo en périphérie, alors que seules les statistiques et/ou les représentations sont transmises et traitées de manière centralisée. Cela permet de réduire les besoins en infrastructure et d'améliorer la sécurité puisque les images ne doivent pas quitter l'emplacement de la caméra. Les cas d'utilisation les plus notables à cet égard sont la surveillance et le contrôle du trafic, de l'environnement et d'autres types de contrôle.
Objectif
Rechercher et créer un algorithme optimisé de détection d'anomalies vidéo pour les périphériques tels que les NVIDIA Jetson Xavier, à utiliser dans un contexte de surveillance. Le cas d'utilisation particulier est ouvert et pourrait être lié au trafic, aux animaux, aux personnes ou à d'autres phénomènes. L'accent sera mis sur la comparaison, la sélection et l'optimisation de différents modèles d'apprentissage automatique pour une utilisation en périphérie. Les techniques qui peuvent être utilisées pour l'optimisation comprennent la quantification, l'élagage et la distillation des connaissances.