Vision 3D par ordinateur : Déverrouiller la troisième dimension [Partie 1]

Les contributeurs
Francisco Pereira
Ingénieur en machine learning
Aucun élément trouvé.
S'abonner à la newsletter
Partager cet article

Cet article de blog est la première partie de notre série de blogs sur la vision 3D par ordinateur. Ce premier article (partie 1) donne un aperçu de la vision 3D par ordinateur et de la manière dont cette technologie est utilisée aujourd'hui, et convient donc à un public diversifié intéressé par le sujet. Les articles suivants (parties 2 et 3) sont destinés à un public plus technique et à ceux qui cherchent à mettre en œuvre des applications de vision 3D par ordinateur.

Introduction

Dans le monde technologique actuel, qui évolue rapidement, il est plus important que jamais de comprendre et d'interpréter les détails de notre environnement. Ces dernières années, nous avons vu les réseaux neuronaux convolutifs (ou CNN, en abrégé) changer complètement la vision par ordinateur, en nous permettant d'analyser les images avec une précision incroyable. L'automatisation, la robotique et les applications de vente au détail ne cessant de croître, la demande de systèmes de vision plus avancés s'accroît également. C'est là que la vision par ordinateur en 3D brille, en introduisant des informations sur la profondeur et un niveau de compréhension qui était autrefois hors de portée des systèmes traditionnels de vision par ordinateur en 2D.

Dans notre prochaine série de billets de blog, nous allons nous plonger dans les avantages de la vision 3D par ordinateur et explorer la manière dont cette technologie transforme divers secteurs. En abordant ce sujet dans le cadre d'un pipeline d'apprentissage automatique typique (figure 1), nous comprendrons mieux le processus de capture des données tridimensionnelles, nous étudierons les divers capteurs impliqués et, enfin, nous explorerons la multitude de méthodes de traitement et d'extraction de la valeur de ces informations.

Figure 1 : Le pipeline d'apprentissage automatique. Dans cette série d'articles de blog, nous allons nous pencher sur la manière dont la vision 3D par ordinateur est réalisée à chaque étape.

Dans cette première partie de la série, nous découvrons le monde passionnant de la vision 3D par ordinateur, ses applications réelles et la manière dont elle façonne l'avenir de nombreuses industries.

Vision par ordinateur 2D et 3D

Pour apprécier pleinement les avantages de la vision par ordinateur en 3D, il est essentiel de comprendre les différences entre la vision par ordinateur en 2D et en 3D. À la base, la vision par ordinateur est une technologie qui traite et interprète les données visuelles. Dans la vision 2D, les données sont analysées sur la base des valeurs des pixels, des couleurs et des textures d'une image plane et bidimensionnelle, comme nous le faisons pour les photographies. Bien qu'elle soit très efficace pour des tâches telles que la reconnaissance et la classification d'images, elle ne permet pas de comprendre les relations spatiales et la profondeur, ce qui la rend moins adaptée aux tâches qui nécessitent une perception précise des environnements du monde réel. En fournissant des informations sur la profondeur, la vision artificielle en 3D peut remédier à de nombreuses limitations rencontrées par la vision artificielle en 2D, telles que la compréhension des relations spatiales, la gestion de l'occlusion et la résolution des problèmes liés à l'éclairage et aux ombres.

Pour vous aider à comprendre les différences entre la vision artificielle 2D et 3D, prenons un exemple simple de la vie de tous les jours. Imaginez-vous en train de regarder la photo d'un salon confortable, avec des meubles disposés à différents endroits. Avec la vision 2D, il est facile d'identifier et de reconnaître les différents meubles et leurs couleurs. Cependant, il est difficile de déterminer les distances relatives entre les objets et leurs tailles réelles, car il n'y a pas d'informations sur la profondeur. En tant qu'êtres humains, nous devons nous fier à des indices visuels (figure 2) tels que les ombres, la perspective et les objets qui se chevauchent pour comprendre la profondeur dans une image 2D, mais ces indices ne sont pas toujours très clairs.

Figure 2 : Indices de profondeur monoculaires. Pour un exemple intéressant de la façon dont la perspective et les repères visuels peuvent être trompeurs, visitez la salle Ames.

Imaginez maintenant que vous entrez dans ce même salon. Votre compréhension de la pièce, des meubles et de leur position les uns par rapport aux autres devient soudain beaucoup plus claire, grâce aux indices de profondeur binoculaires fournis par notre vision (notre capacité à percevoir la profondeur en utilisant les deux yeux). C'est ce type de perception améliorée que la vision 3D par ordinateur offre aux machines, leur permettant de comprendre et d'interagir plus facilement avec leur environnement. Cette capacité est vitale pour diverses tâches, notamment la navigation robotique, la manipulation d'objets et la mesure précise de volumes et de formes, ce qui permet aux machines d'interagir avec le monde et d'y réagir plus efficacement.

Les informations sur la profondeur fournies par la vision artificielle 3D jouent également un rôle essentiel dans l'amélioration de la précision. Alors que la vision par ordinateur 2D peut parfois avoir du mal à différencier les objets dans un environnement encombré, la vision par ordinateur 3D exploite les données de profondeur pour les distinguer, ce qui permet d'exécuter les tâches avec plus de précision et de fiabilité (figure 3).

Figure 3 : Utilisation de la vision 3D pour distinguer différents produits dans un environnement encombré (Source)

Un autre avantage notable de la vision par ordinateur 3D est sa robustesse à l'éclairage et aux ombres. Dans le monde de la vision 2D, les changements de conditions d'éclairage et la présence d'ombres peuvent avoir un impact significatif sur les performances, car elles reposent uniquement sur les données de couleur et d'intensité. Cependant, l'utilisation des informations de profondeur nous permet de surmonter facilement ces problèmes. Dans l'ensemble, la vision par ordinateur en 3D offre une forte résistance dans un large éventail d'environnements et de conditions d'éclairage, ce qui permet aux systèmes de fonctionner de manière plus cohérente et plus fiable.

Jusqu'à présent, nous avons vu que les systèmes de vision 3D offrent de nombreux avantages par rapport aux systèmes 2D en fournissant une couche supplémentaire d'informations, ce qui peut améliorer les performances. Cependant, ils introduisent également des complexités en termes de configuration matérielle, de capacité de stockage et de temps de traitement. Il est essentiel d'évaluer les besoins spécifiques de l'application et de déterminer si les avantages de l'utilisation de la vision 3D l'emportent sur les difficultés. Pour guider ce processus de prise de décision, nous allons voir dans la section suivante comment les données 3D ouvrent de nouvelles possibilités et de nouvelles applications dans de nombreux secteurs d'activité.

Applications et tendances dans le monde réel

La vision 3D par ordinateur a un impact significatif sur diverses industries en offrant de nouvelles possibilités et en transformant les tâches traditionnelles. Une grande partie de cette transformation a également été possible grâce aux progrès des modèles d'apprentissage profond, où de nouvelles architectures de modèles et la collecte de données de plus en plus nombreuses ont permis des améliorations significatives dans ce domaine. Explorons quelques-unes des applications et tendances passionnantes dans plusieurs secteurs clés.

Fabrication et contrôle de la qualité

Dans le secteur de la fabrication, la vision par ordinateur en 3D améliore la robotique et l'automatisation grâce à la perception de la profondeur, ce qui permet aux robots de mieux comprendre leur environnement et d'effectuer des tâches avec une précision accrue, telles que le prélèvement et le placement d'articles ou l'assemblage de composants. Le contrôle de la qualité et l'inspection en ligne bénéficient également beaucoup de la vision par ordinateur en 3D et de l'apprentissage automatique combinés. Les modèles d'apprentissage profond en 3D nous fournissent une détection et une reconnaissance précises des objets, ce qui peut facilement aider les systèmes à identifier les défauts, à fournir des mesures exactes et précises et à identifier les incohérences dans les produits manufacturés avec une plus grande fiabilité. Cette précision accrue permet d'améliorer la qualité des produits et de réduire les déchets, ce qui est essentiel pour conserver un avantage concurrentiel sur le marché actuel, qui évolue rapidement. L'intégration de la vision 3D par ordinateur aux technologies émergentes telles que l'industrie 4.0 et l'internet des objets (IoT) ouvre la voie aux usines intelligentes. Les systèmes deviennent plus rapides et plus efficaces et nous pouvons nous attendre à voir davantage de processus en temps réel intégrés de manière transparente dans les flux de travail de fabrication.

Figure 4 : Exemple de cas d'utilisation pour l'inspection de la qualité en 3D ; mesure de l'angle des languettes de boîtes de conserve soulevées (Source).

Conduite autonome

Dans l'industrie automobile, la vision 3D par ordinateur est essentielle pour les voitures autonomes, car elle leur permet de percevoir et de comprendre avec précision leur environnement. Des entreprises comme Waymo, Cruise et Zoox utilisent des modèles multimodaux d'apprentissage profond et une technologie de vision 3D avancée pour la détection des obstacles, le suivi des voies et la navigation, ouvrant ainsi la voie à des transports plus sûrs et plus efficaces. Vous pouvez consulter cette vidéo pour découvrir comment Zoox utilise la vision artificielle pour résoudre le problème de la conduite autonome.

Figure 5 : Cartographie 3D de l'environnement pour la navigation autonome (Source).

Soins de santé

Diverses applications médicales, telles que l'assistance chirurgicale, le diagnostic et l'imagerie médicale, font appel à la vision 3D par ordinateur. Par exemple, un service de visualisation anatomique¹ crée des modèles 3D de l'anatomie des patients, aidant ainsi les chirurgiens à planifier et à exécuter les procédures. Pendant l'opération, le modèle peut être visualisé et manipulé sur une console, ce qui améliore la précision et l'efficacité de la chirurgie.

Figure 6 : Modèles anatomiques en 3D permettant aux médecins de planifier et d'exécuter des procédures(Source)

Imagerie aérienne

Les drones dotés de capacités de vision 3D peuvent fournir des données topographiques détaillées, facilitant ainsi des tâches telles que la cartographie, l'arpentage et la surveillance de l'environnement². Ils sont également utiles à l'agriculture en surveillant la santé des cultures, en analysant l'état des sols et en optimisant l'utilisation des ressources. Cela permet de mettre en place des pratiques d'agriculture de précision, qui se traduisent par une augmentation des rendements et une agriculture plus durable. La combinaison des drones et de la vision 3D permet également d'inspecter en toute sécurité les infrastructures et les équipements tels que les réseaux électriques, les chantiers de construction et les raffineries de pétrole et de gaz³. Les modèles scannés en 3D peuvent être introduits dans un système de détection d'objets en 3D.

Figure 7 : Inspection 3D d'un réseau électrique (Source).

Logistique

Le commerce de détail et la logistique font également l'expérience du pouvoir de transformation de la vision par ordinateur en 3D. Dans la gestion des stocks, la vision 3D peut reconnaître et suivre avec précision des articles individuels, même dans des environnements encombrés, ce qui facilite le maintien de niveaux de stock précis et optimise l'organisation des entrepôts. En outre, elle peut être intégrée dans des problèmes d'optimisation, tels que la minimisation des coûts des opérations d'emballage et d'expédition en scannant les dimensions des objets et en les faisant correspondre à l'espace d'emballage disponible (par exemple, dans un conteneur).

Vente au détail

Dans le secteur de la vente au détail, la technologie est intégrée dans des applications en contact direct avec la clientèle, telles que les cabines d'essayage virtuelles et les expériences d'achat en réalité augmentée, offrant ainsi une expérience plus attrayante et personnalisée aux consommateurs. Apple, par exemple, a intégré LiDAR⁴ dans les versions Pro de ses iPhones, ce qui permet une nouvelle gamme d'applications. L'application IKEA Place, par exemple, permet aux utilisateurs de visualiser les produits dans leur maison avant d'effectuer un achat (voir cette vidéo).

L'IA générative a également fait son chemin dans l'espace 3D. Des modèles d'apprentissage profond tels que pix2pix3D⁵ et Imagine 3D⁶ permettent de créer des représentations 3D d'objets à l'aide d'étiquettes dessinées à la main et d'invites textuelles, respectivement. Bien qu'elle en soit encore à ses débuts, cette technologie a le potentiel de débloquer des cas d'utilisation intrigants dans le secteur de la vente au détail.

Figure 8 : L'application IKEA Place permet aux utilisateurs d'essayer différents meubles dans leur propre espace (Source).

À mesure que la vision 3D par ordinateur continue d'évoluer, nous pouvons nous attendre à voir émerger des applications et des tendances encore plus innovantes dans divers secteurs d'activité. La capacité à percevoir avec précision la profondeur et les relations spatiales permet non seulement d'améliorer les processus existants, mais aussi d'ouvrir de nouvelles perspectives aux entreprises pour qu'elles améliorent leurs opérations et gardent une longueur d'avance sur la concurrence.

Conclusion

Comme nous l'avons vu, la vision par ordinateur en 3D offre une multitude d'avantages par rapport à la vision par ordinateur traditionnelle en 2D, ouvrant de nouvelles portes à l'innovation et à l'amélioration des performances dans une multitude d'industries. Si le secteur manufacturier devrait bénéficier de manière significative de l'adoption des technologies de vision par ordinateur en 3D, l'impact de ces technologies s'étend bien au-delà de cette industrie. L'avenir de la vision par ordinateur en 3D est marqué par des possibilités accrues et des applications émergentes dans divers secteurs tels que le commerce de détail, la logistique et même les soins de santé. En adoptant cette technologie transformatrice, les entreprises peuvent atteindre de nouveaux niveaux d'efficacité, de productivité et d'innovation, améliorant ainsi non seulement leurs activités, mais aussi les secteurs qu'elles desservent.

En conclusion, l'adoption de la vision 3D par ordinateur n'est pas seulement un saut technologique, mais un mouvement stratégique pour les entreprises tournées vers l'avenir. Il est temps d'explorer le potentiel des solutions de vision 3D par ordinateur pour votre organisation et de garder une longueur d'avance dans un paysage de plus en plus concurrentiel.

Cette première partie de la série de billets de blog a servi d'introduction au monde de la vision 3D. En gardant à l'esprit le pipeline illustré à la figure 1, notre prochain billet explorera plus en détail la capture et le stockage des données. Nous examinerons comment ces données sont produites et comment le choix du type de capteur peut être influencé par divers facteurs tels que les exigences techniques, les considérations environnementales, les contraintes commerciales et d'autres facteurs pertinents.

Références

[1] - Iris, service de visualisation anatomique en 3D : https://www.intuitive.com/en-us/products-and-services/da-vinci/vision/iris

[2] - Drones Parrot et photogrammétrie autonome : https://www.parrot.com/en/drones/anafi-ai

[3] - DJI Aerial Inspection of Infrastructure : https://enterprise.dji.com/electricity/power-grid-management

[4] - LiDAR dans l'IPad Pro d'Apple : https://www.apple.com/newsroom/2020/03/apple-unveils-new-ipad-pro-with-lidar-scanner-and-trackpad-support-in-ipados/

[5] - Deng et al. "3D-aware Conditional Image Synthesis". CVPR 2023.

[6] - Imagine 3D v1.2.

Postes connexes

Voir tout le contenu
Aucun résultat n'a été trouvé.
Il n'y a pas de résultats correspondant à ces critères. Essayez de modifier votre recherche.
Modèles de fondation
Entreprise
Personnes
IA responsable et éthique
Données Structurées
Chat GPT
Durabilité
Voix et son
Développement frontal
Protection des données et sécurité
IA responsable/éthique
Infrastructure
Hardware et capteurs
MLOps
IA générative
Natural Language Processing
Vision par ordinateur