BREAKING

Apple

Comment une nouvelle étude d’Apple permet aux robots d’apprendre en observant les humains

Dans leur nouvel article intitulé « Humanoid Policy ∼ Human Policy« , des chercheurs d’Apple collaborent avec des institutions prestigieuses comme le MIT et Carnegie Mellon pour révolutionner l’entraînement des robots humanoïdes. En utilisant des démonstrations humaines, cette étude propose une approche innovante et économique.

Une nouvelle étude d’Apple enseigne aux robots comment agir en observant les humains

Robot voit, robot fait

Dans un article récemment publié intitulé « Humanoid Policy ∼ Human Policy », des chercheurs d’Apple ont proposé une méthode fascinante pour entraîner des robots humanoïdes. Cette approche implique notamment l’utilisation de l’Apple Vision Pro.

Ce projet est le fruit d’une collaboration entre Apple, le MIT, Carnegie Mellon, l’Université de Washington et l’UC San Diego. Il explore comment des séquences vidéo prises en première personne, où des individus manipulent des objets, peuvent servir à former des modèles de robots polyvalents.

Les chercheurs ont recueilli plus de 25 000 démonstrations humaines et 1 500 démonstrations de robots (un ensemble de données nommé PH2D) qu’ils ont ensuite intégrées dans une politique d’IA unifiée, capable de contrôler un véritable robot humanoïde dans le monde physique.

Les auteurs expliquent :

« Entraîner des politiques de manipulation pour des robots humanoïdes avec des données diversifiées améliore leur robustesse et leur capacité de généralisation à travers différentes tâches et plateformes. Toutefois, apprendre uniquement à partir de démonstrations de robots est laborieux et nécessite une collecte de données coûteuse, ce qui est difficile à échelonner. »

Leur solution ? Laisser les humains montrer la voie.

Vous aimerez aussi :  Nouveaux éléments UI en verre liquide pour le redesign d'iOS sur iPhone

Entraînement moins coûteux et plus rapide

Pour collecter les données d’entraînement, l’équipe a développé une application pour l’Apple Vision Pro qui enregistre des vidéos à partir de la caméra inférieure gauche de l’appareil et utilise ARKit d’Apple pour suivre les mouvements en 3D de la tête et des mains.

En cherchant une solution plus abordable, ils ont aussi imprimé en 3D un support pour attacher une caméra stéréo ZED Mini à d’autres casques, comme le Meta Quest 3, qui offre un suivi de mouvement en 3D à un coût réduit.

Le résultat fut une configuration permettant d’enregistrer des démonstrations de haute qualité en quelques secondes, une amélioration significative par rapport aux méthodes traditionnelles de télé-opération des robots, qui sont plus lentes, plus coûteuses et plus difficiles à échelonner.

Un dernier détail intéressant : les mouvements humains étant beaucoup plus rapides que ceux des robots, les chercheurs ont ralenti les démonstrations humaines d’un facteur de quatre pendant l’entraînement, juste assez pour que le robot puisse suivre sans nécessiter d’ajustements supplémentaires.

Le Human Action Transformer (HAT)

Le cœur de cette étude repose sur le HAT, un modèle entraîné à partir de démonstrations tant humaines que robotiques, dans un format commun.

Au lieu de segmenter les données par source (humains contre robots), le HAT apprend une politique unique qui se généralise à travers les deux types de corps, rendant le système plus flexible et efficace en termes de données.

Dans certains tests, cette approche d’entraînement partagé a aidé le robot à maîtriser des tâches plus difficiles, y compris celles qu’il n’avait jamais rencontrées auparavant, comparé à des méthodes plus traditionnelles.

Vous aimerez aussi :  iOS 18.4 : une fonctionnalité phare du nouveau HomePad d'Apple révélée

Dans l’ensemble, cette étude est particulièrement captivante et vaut la peine d’être consultée pour ceux qui s’intéressent à la robotique.

Mon avis :

Les recherches d’Apple, MIT et autres sur l’utilisation de la vidéo à la première personne pour former des robots humanoïdes montrent un potentiel remarquable pour améliorer l’efficacité et réduire les coûts de la collecte de données. Toutefois, cette approche soulève des questions éthiques sur la dépendance aux humains pour l’apprentissage des machines.

Les questions fréquentes :

Quelle est l’objectif principal de l’étude sur les robots humanoïdes d’Apple ?

L’objectif principal de l’étude est de former des robots humanoïdes en utilisant des vidéos de personnes manipulant des objets. Cela permet de créer des modèles de robots polyvalents capables d’apprendre à partir d’exemples humains, ce qui améliore leur robustesse et leur capacité à généraliser.

Comment les données d’entraînement ont-elles été collectées ?

Les chercheurs ont développé une application pour l’Apple Vision Pro qui capture des vidéos et utilise la technologie ARKit d’Apple pour suivre les mouvements de la tête et des mains en 3D. Ils ont également créé un support 3D pour utiliser d’autres casques, comme le Meta Quest 3, afin de réduire les coûts de collecte de données.

Qu’est-ce que le Human Action Transformer (HAT) ?

Le Human Action Transformer, ou HAT, est un modèle qui apprend à partir des démonstrations humaines et robotiques dans un format partagé. Contrairement aux méthodes traditionnelles, HAT utilise une politique unique qui s’applique à la fois aux humains et aux robots, ce qui rend le système plus flexible et efficace en termes de données.

Vous aimerez aussi :  Aqara P2 sensor : évaluation du capteur compatible HomeKit, Matter et Thread pour une maison intelligente efficace

Quels sont les avantages de cette nouvelle méthode de formation pour les robots ?

Cette nouvelle méthode de formation est moins coûteuse et plus rapide que les techniques de téléopération traditionnelles. Elle permet d’obtenir des démonstrations de haute qualité en quelques secondes, contrairement aux approches plus lentes et coûteuses, et elle aide les robots à s’adapter à des tâches plus difficiles, même celles qu’ils n’ont jamais rencontrées auparavant.