Les nouvelles recherches de Meta sur l'IA pourraient améliorer les capacités du Quest 3

Image : Meta Reality Labs

L'article ne peut être affiché qu'avec JavaScript activé. Veuillez activer JavaScript dans votre navigateur et télécharger à nouveau la page.

Meta souhaite donner aux lunettes AR et aux casques VR une meilleure compréhension de la façon dont les humains interagissent avec les objets et espère que cela conduira à de nouvelles applications.

La compréhension par les machines des interactions main-objet reste un défi en raison des occlusions des mains et de la manière complexe dont les mains se déplacent.

Les chercheurs de Meta Reality Labs ont publié un ensemble de données appelé HOT3D (acronyme de« Het et Oobjet TIl vise à contribuer au développement d'un système basé sur la vision qui comprend mieux les interactions main-objet et permet ainsi de nouvelles applications.

« Par exemple, un tel système permettra de transférer des compétences manuelles entre utilisateurs en capturant d'abord des utilisateurs experts effectuant une séquence d'interactions main-objet (lors de l'assemblage d'un meuble, d'un service de tennis, etc.), et en utilisant les informations capturées pour guider les utilisateurs moins expérimentés, par exemple, via Lunettes AR, » écrivent les chercheurs dans leur article. « Les compétences pourraient être transférées de la même manière des humains aux robots, permettant ainsi aux robots autonomes d'apprendre à la volée. Le système pourrait également aider un Assistant IA pour mieux comprendre le contexte des actions d'un utilisateur ou permettrenouvelles capacités de saisie pour les utilisateurs AR/VRpar exemple, en transformant n'importe quelle surface physique en clavier virtuel, ou n'importe quel crayon en baguette magique multifonctionnelle.

L'ensemble de données est disponible sur la page du projet HOT3D de Meta. Il existe également un lien vers le document de recherche.

Enregistré avec et pour Quest et d'autres appareils Meta (à venir)

L'ensemble de données contient plus de 800 minutes d'enregistrements vidéo égocentriques montrant des interactions avec 33 objets du quotidien. En plus de scénarios simples dans lesquels des objets sont ramassés, regardés et posés, l'ensemble de données comprend également des actions typiques dans les environnements de cuisine, de bureau et de salon.

Deux appareils Meta ont été utilisés pour capturer les données vidéo : les lunettes de recherche Project Aria et le casque VR Quest 3. Étant donné que Meta utilise ces appareils, l'ensemble de données sera probablement utilisé principalement pour former des systèmes basés sur l'IA pour les lunettes et casques IA/AR/VR existants et futurs de l'entreprise.