En bref :
• L'équipe de Machine Learning d'Apple, en collaboration avec des universités chinoises, a développé Matrix3D, un modèle IA de photogrammétrie révolutionnaire.
• Matrix3D génère des reconstructions 3D détaillées à partir de seulement trois images 2D, simplifiant le processus traditionnel en intégrant toutes les étapes dans une architecture unifiée.
• Le modèle utilise une stratégie d'apprentissage masqué similaire aux systèmes Transformer, lui permettant de fonctionner avec des données limitées.
• Cette technologie pourrait avoir des applications significatives pour des dispositifs immersifs comme l'Apple Vision Pro.
Dans un partenariat innovant, l’équipe de Machine Learning d’Apple, en collaboration avec des chercheurs de l’Université de Nankin et de l’Université des Sciences et Technologies de Hong Kong, dévoile le modèle 3D Matrix3D, révolutionnant la photogrammétrie en générant des reconstructions 3D à partir de quelques photos 2D.
markdown
Modèle AI d’Apple : Matrix3D
L’équipe de Machine Learning d’Apple, en collaboration avec des chercheurs de l’Université de Nanjing et de l’Université des Sciences et Technologies de Hong Kong, a récemment présenté un modèle AI 3D révolutionnaire connu sous le nom de Matrix3D. Ce modèle, qui fait partie d’une nouvelle génération de technologies de modélisation, est capable de reconstruire des objets et des scènes 3D à partir de seulement quelques photos 2D, tout en apportant une avancée majeure par rapport aux méthodes actuelles.
Qu’est-ce que la photogrammétrie ?
La photogrammétrie est une technique qui utilise des photographies pour effectuer des mesures et créer des modèles ou des cartes 3D. Dans les pratiques actuelles, cette méthode nécessite plusieurs modèles pour des étapes comme l’estimation de la position et la prédiction de la profondeur. Cette fragmentation peut engendrer des inefficacités et des erreurs.
Simplification du processus avec Matrix3D
Matrix3D simplifie ce processus en intégrant toutes ces étapes en un seul flux. Il prend en compte les images, les paramètres de la caméra (comme l’angle et la longueur focale) et les données de profondeur, le tout traité à l’aide d’une architecture unifiée. Cette approche rationalise non seulement le flux de travail, mais accroît également l’exactitude des résultats.
Stratégie d’apprentissage innovante
Une des caractéristiques les plus intéressantes de la formation de ce modèle réside dans l’utilisation d’une stratégie d’apprentissage masquée, très semblable à celles appliquées dans les systèmes AI basés sur Transformer qui ont contribué à l’émergence des premières versions de ChatGPT. Les chercheurs ont masqué aléatoirement des parties des données d’entrée durant le processus de formation, obligeant Matrix3D à apprendre à combler les lacunes. Cette procédure est essentielle car elle permet au modèle de se former efficacement, même avec des ensembles de données plus petits ou incomplets.
Résultats impressionnants
Les résultats obtenus avec Matrix3D sont très prometteurs. Avec seulement trois images d’entrée, le modèle peut générer des reconstructions 3D détaillées d’objets et même de paysages entiers. Ces capacités pourraient avoir des applications fascinantes pour des dispositifs immersifs comme le Apple Vision Pro.
Accès aux ressources
Les chercheurs ont rendu le code source de Matrix3D disponible sur GitHub et ont publié leur étude sur arXiv. De plus, un site web a été créé pour permettre aux utilisateurs de visionner des vidéos d’exemples et d’interagir avec quelques reconstitutions en nuages de points d’objets et d’environnements.
Mon avis :
Le modèle Matrix3D d’Apple, alliant photogrammétrie et IA, représente une avancée significative, simplifiant le processus de reconstruction 3D à partir de seulement trois images. Bien qu’efficace et prometteur pour des applications comme l’Apple Vision Pro, son besoin de données complètes pour un résultat optimal reste une limitation potentielle.
Les questions fréquentes :
Qu’est-ce que le modèle Matrix3D ?
Le modèle Matrix3D est un modèle d’intelligence artificielle développé par l’équipe de Machine Learning d’Apple, en collaboration avec des chercheurs de l’Université de Nankin et de l’Université des sciences et technologies de Hong Kong. Il permet de reconstruire des objets et des scènes en 3D à partir de quelques photos 2D, tout en simplifiant le processus traditionnel de photogrammétrie.
Comment fonctionne la photogrammétrie traditionnelle ?
La photogrammétrie utilise des photographies pour créer des modèles 3D ou des cartes. Ce processus nécessite l’utilisation de différents modèles pour des étapes telles que l’estimation de pose et la prédiction de profondeur, ce qui peut entraîner des inefficacités et des erreurs.
Quelles sont les innovations apportées par Matrix3D ?
Matrix3D intègre tout le processus dans une architecture unifiée, en prenant en compte les images, les paramètres de la caméra (comme l’angle et la focale) et les données de profondeur. Cela simplifie le flux de travail et améliore l’exactitude.
Quels sont les avantages de la formation de Matrix3D ?
Matrix3D a été formé en utilisant une stratégie d’apprentissage masqué, similaire à celle des premiers systèmes d’IA basés sur des Transformateurs. En cachant aléatoirement des parties des données d’entrée, le modèle apprend à combler les lacunes, ce qui lui permet de s’entraîner efficacement même avec des jeux de données plus petits ou incomplets.