Projet Soli et l'utilisation à venir du radar dans les interfaces Homme-Machine

Le radar est une technologie vieille de 85 ans qui, jusqu’à récemment, n’avait pas été activement déployée dans les interfaces homme—machine. La détection gestuelle basée sur le radar permet de déduire l’intention de l’utilisateur dans plus de contextes que le suivi basé uniquement sur l’optique ne le permet actuellement.

L’utilisation par Google du projet Soli, un système de reconnaissance gestuelle basé sur le radar, dans la série de téléphones Pixel 4 est très probablement la première étape de l’adoption ultérieure du radar comme entrée pour interagir avec nos appareils.

Contexte du projet Soli

Lors de Google I/O 2015, le groupe ATAP (Advanced Technology and Projects) a annoncé plusieurs nouvelles initiatives. Ceux-ci comprenaient:

Project Abacus — authentification utilisateur multifacteur basée sur l’emplacement de l’utilisateur, les motifs de frappe et les motifs vocaux
Project Vault – un environnement informatique sécurisé sur une carte microSD, pour n’importe quelle plate—forme
Project Jacquard — fil conducteur intégré dans des textiles productibles en masse pour créer des interactions portables
Project Soli – un petit capteur radar capable de détecter les micro-gestes

Parmi ceux—ci, Jacquard et Soli sont toujours actifs – Jacquard ayant été intégré dans une variété de produits de consommation avec la mode des labels tels que Levi’s, Saint Laurant et Adidas.

Après avoir parcouru plusieurs itérations de prototypes, Google a intégré Soli au Pixel 4 dans le cadre de la fonction Motion Sense, qui permet au téléphone de démarrer le processus d’authentification faciale avant même que le propriétaire du téléphone ne doive toucher son téléphone.

Peu de temps après l’annonce lors des E / S, ATAP a lancé un appel pour que les développeurs tiers s’inscrivent au programme de développement Alpha pour le projet Soli, afin d’obtenir des commentaires sur leur kit de développement à un stade précoce. J’ai rempli une demande pour développer des interactions musicales avec Soli et j’ai été accepté dans le programme.

J’ai écrit plus sur mon expérience en tant que membre du programme alpha developer ici; ce que je voulais faire avec cet article de blog était de fournir davantage un aperçu des capacités du radar à ondes millimétriques et de la façon dont elles permettent certaines nouvelles expériences et expériences dans le domaine de l’interaction homme-machine.

Plusieurs articles universitaires ont été écrits dans ce domaine depuis l’annonce du projet Soli, explorant différents domaines d’application, nous allons donc les examiner; ainsi qu’un aperçu rapide de ce qu’est un radar à ondes millimétriques et des types de propriétés qu’il offre.

Tout d’abord, jetons un coup d’œil au premier produit commercial à utiliser Project Soli, le Pixel 4.

Le premier produit commercial à intégrer Project Soli est le Pixel4, publié par Google en octobre 2019.

Le teaser-ad laissait entendre que le nouveau téléphone serait le premier produit à s’intégrer à Soli; compte tenu des gestes d’air sans contact qui y sont montrés:

La puce Soli offre trois nouveaux types de capacités pour le Pixel 4:

Présence – grâce à la capacité du radar à détecter un mouvement dans la zone voisine d’où il est placé, le Pixel 4 éteindra l’affichage toujours allumé si l’utilisateur du téléphone n’est pas à proximité lorsqu’il est placé sur une table; étant donc capable à la fois d’économiser l’énergie de la batterie et de ne pas empiéter sur l’attention de l’utilisateur

Portée – le capteur Soli détectera si une main se déplace vers elle; réveil de l’écran et activation des caméras frontales pour le déverrouillage du visage

Gestes

Flick
Présence
Portée
Swipe

9 à 5 Google a fait une analyse du jeu Pokemon Wave Hello fourni avec les téléphones Pixel 4 et a découvert un plug-in Unity dans le jeu qui se connectait à une application « Motion Sense Bridge » fonctionnant sur le téléphone qui donnait aux développeurs de jeux accès à divers paramètres gestuels:

Flick
Présence
Portée
Swipe
Partenariat avec Infineon
Exemples d’applications du Programme Alpha Dev
Google Papers
Propriétés du radar à ondes mm et de ses Affordances
Futurs produits électroniques grand public de Google
L’avenir de l’informatique ambiante de Google
Indices d’Apple sur l’adoption du radar à ondes mm
Compétition
Réflexions de clôture
Annexe:

Flick

flickConfidence
flickDirection
flickPrediction
flickRange
flickVelocity

Présence

présenceConférence
présencePrédiction
Présenceange
présenceVélocité

Portée

Atteignazimut
Atteindre la confiance
reachElevation
reachPrediction
reachRange
reachVelocity

Swipe

swipeAmplitude
swipeConfidence
swipeDirection
swipeIntensity
swipePrediction
swipeTheta

À l’heure actuelle, les développeurs tiers n’ont pas accès aux gestes MotionSense à moins qu’ils n’aient eu accès à l’application interne Android MotionSense Bridge par Google. Espérons que Google ouvrira un accès complet au capteur Soli afin que les développeurs puissent explorer comment utiliser les capacités de reconnaissance gestuelle qu’il offre de manière nouvelle et innovante.

( Le capteur Soli du Pixel 4; du démontage du Pixel 4 XL d’iFixit https://www.ifixit.com/Teardown/Google+Pixel+4+XL+Teardown/127320)

L’emplacement du capteur Soli sur le Pixel 4 (à partir de https://ai.googleblog.com/2020/03/Soli-radar-based-perception-and.html)

Défis liés à la création d’un ensemble de données de formation pour la reconnaissance gestuelle basée sur le Radar

Dans un article publié sur le blog de Google AI, les ingénieurs de Google ATAP décrivent certains des défis et des considérations liés à l’intégration d’un radar dans un smartphone, tels que rendre la puce radar suffisamment petite et modulaire pour qu’elle puisse s’adapter au sommet d’un téléphone, en ajoutant des filtres pour tenir compte du bruit vibratoire qui se produit lorsque la musique est diffusée à partir du téléphone et des algorithmes d’apprentissage automatique capables de fonctionner à un faible niveau de puissance.

L’un des défis de la création de tout modèle d’apprentissage automatique robuste, en particulier celui qui sera dans un appareil entre les mains de millions de consommateurs, consiste à s’assurer que le modèle est capable de prédire avec précision un geste parmi une population d’utilisateurs large et diversifiée. Au niveau sémantique, il est facile pour les humains de différencier ce qu’est un glissement ou un geste de glissement. Cependant, étant donné que chaque personne fait ces gestes de manière légèrement différente à travers des variations de vitesse, d’angle de la main, de longueur du geste; le modèle d’apprentissage automatique pour déduire quel geste se produit doit être suffisamment robuste pour pouvoir déduire correctement le geste de l’utilisateur indépendamment de ces différences.

Pour s’assurer de la précision de leurs modèles, l’équipe Soli a formé son modèle TensorFlow sur des millions de gestes posés par des milliers de volontaires. Ces modèles ont ensuite été optimisés pour fonctionner directement sur l’unité DSP du Pixel 4; permettre au téléphone de reconnaître les gestes même lorsque le processeur principal est éteint — c’est ainsi que le Pixel 4 est capable de détecter que quelqu’un se dirige vers le téléphone à l’aide de MotionSense, puis d’allumer les capteurs FaceUnlock pour déverrouiller le téléphone.

Partenariat avec Infineon

Alors que Google a développé les algorithmes d’apprentissage automatique, le traitement du signal et les modèles UX pour interagir avec Soli, la société allemande Infineon a développé la puce radar qui fait partie du système Soli du projet. Bien qu’il soit possible d’acheter des kits de développement chez Infineon, ils ne diffusent que des données radar brutes — aucune caractéristique de signal traité pouvant être utilisée pour entraîner un modèle d’apprentissage automatique à reconnaître les gestes ou la présence.

Dans leur article intitulé Soli: Ubiquitous Gesture Sensing with Millimeter Wave Radar, les auteurs de l’ATAP décrivent un HAL (Hardware Abstraction Layer) comme un ensemble d’abstractions qui permettraient au projet Soli de travailler sur différentes architectures de capteurs radar de différents fabricants. Cela permettrait à Google d’avoir la flexibilité d’utiliser le même ensemble de primitives de fonctionnalités Soli sur différents types de radar tout en conservant les mêmes modèles d’interaction de haut niveau.

Exemples d’applications du Programme Alpha Dev

Les participants au Programme Soli Alpha Dev ont été encouragés à publier nos travaux dans des publications académiques; certains membres ont également créé des démos pour les présenter sur divers blogs, notamment:

Nouvelles interfaces musicales (Vidéo de démonstration)
Un clavier gestuel en l’air
Le plus petit violon du monde
Utiliser Soli pour identifier des objets pour le contrôle du bras robotique

Le département HCI de l’Université de St. Andrews a produit un corpus de travail robuste en tant que membres du programme Alpha Dev, y compris

Catégorisation Radar pour la reconnaissance des entrées — les auteurs présentent RadarCat, un système capable de discriminer entre « 26 matériaux (y compris des objets composites complexes), ensuite avec 16 matériaux transparents (avec des épaisseurs différentes et des colorants variables) et enfin 10 parties du corps de 6 participants »
Interface utilisateur Tangible par Classification d’objets et de matériaux avec Radar – poursuivant leur travail de RadarCat; les auteurs décrivent également des scénarios d’application réels dans lesquels ce système pourrait être utilisé, y compris des systèmes d’auto-paiement et des dispositifs médicaux intelligents.
Explorer les interactions tangibles avec la détection radar – explorer « le radar en tant que plate-forme pour détecter les interactions tangibles avec le comptage, la commande, l’identification des objets et le suivi de l’orientation, du mouvement et de la distance de ces objets ».

Certains des projets du programme Alpha Developer ont été présentés dans une vidéo présentée dans la mise à jour d’ATAP lors de l’événement I/O de l’année suivante (2016):

Google Papers

Les membres de Google ATAP ont également publié des articles sur leur travail avec le projet Soli:

Soli: Détection Gestuelle Omniprésente avec Radar à Ondes Millimétriques – SIGGRAPH 2016
Un Émetteur-Récepteur 6 Canaux 60 GHz Hautement Intégré Avec Antenne intégrée pour la Détection Intelligente et les Communications à Courte Portée – IEEE 2016
Interagissant avec Soli: Exploration de la Reconnaissance Dynamique des Gestes à Grain Fin dans le Spectre des Radiofréquences – UIST 2016
Un Capteur Radar Bicolore pour la Détection Simultanée de la Distance Absolue et du Mouvement Relatif pour la Détection des Gestes – IEEE Sensors Letters 2017

Propriétés du radar à ondes mm et de ses Affordances

La détection radar est basée sur la détection des modèles changeants de mouvement d’un objet dans l’espace. Les ondes radio sont transmises par le radar, le rebond d’une cible (une main humaine en mouvement), puis re-reçues par les antennes du radar. La différence temporelle entre le moment où les ondes sont envoyées et le moment où elles sont reçues est utilisée pour créer un profil de l’objet qui se trouve sur la trajectoire du radar.

Dans le cas de gestes humains, la main déplace sa position dans l’espace 3D tout en étant dans la ligne de mire d’un capteur radar. Les changements de position produisent des profils différents pour les signaux radar rejetés, ce qui permet de détecter différents gestes.

Étant donné que le radar détecte les gestes en fonction de différentes caractéristiques de mouvement, il n’est pas bien adapté à la détection de gestes statiques, tels que la langue des signes ou un signe de paix. Cependant, il est bien adapté à la détection de gestes dynamiques basés sur le mouvement, comme un claquement de doigt ou un mouvement de rotation de la touche.

Contrairement aux capteurs optiques, les performances du radar ne dépendent pas de l’éclairage, peuvent travailler à travers les matériaux et même détecter les gestes qui se produisent lorsque les doigts peuvent s’obstruer.

Les micro-gestes peuvent être définis comme des « interactions impliquant de petites quantités de mouvement et celles qui sont effectuées principalement par des muscles entraînant les doigts et articulant le poignet, plutôt que par des groupes musculaires plus importants pour éviter la fatigue au fil du temps ». Quelques exemples de ces types de gestes consistent à appuyer sur un bouton en appuyant sur votre index contre votre pouce, à faire un mouvement de curseur en déplaçant votre pouce contre la surface de votre index et à faire un mouvement similaire à celui de tourner un cadran avec vos doigts et votre poignet.

Ces gestes peuvent être utilisés dans divers contextes (IoT, AR/VR, etc.) pour interagir avec des éléments d’interface utilisateur.

Futurs produits électroniques grand public de Google

Google semble travailler sur l’intégration de Soli dans de nouveaux produits; une offre d’emploi pour un « Ingénieur en algorithmes de capteurs d’intelligence, Google Nest » répertorie « L’expérience de travail avec le Radar » comme qualification préférée. L’une des premières démos de Soli a montré le radar intégré dans un haut-parleur intelligent de JBL; il ne serait pas surprenant que Soli soit intégré dans un produit électronique grand public ou un appareil ménager.

Une autre démo du projet Soli que Google a montrée lors de la même présentation que l’enceinte JBL contrôlée par le sol était une smartwatch avec Soli à l’intérieur (Google a même déposé un brevet pour une smartwatch basée sur les gestes pouvant être utilisée pour la visioconférence).

Dans ce qui est probablement un scénario beaucoup plus éloigné, Google a déclaré qu’au-delà de l’utilisation de capteurs comme Soli pour la reconnaissance des gestes, « À l’avenir, nous voulons créer des appareils capables de comprendre votre langage corporel, afin qu’ils soient plus intuitifs à utiliser et plus utiles ». Bien que ce soit à spéculer sur ce que cela pourrait signifier et ressembler exactement dans la pratique, un cas d’utilisation potentiel ici est que le téléphone pourrait détecter l’état émotionnel des personnes à proximité; permettant des interfaces informatiques affectives. (Une discussion plus approfondie de l’informatique affective dépasse le cadre de cet article; Je vous encourage à lire ce travail fondateur de Rosalind Picard qui a inventé le terme pour obtenir plus d’informations sur le sujet).

L’avenir de l’informatique ambiante de Google

Dans le premier article publié pour le projet Soli, les auteurs (de Google ATAP) énumèrent plusieurs domaines d’application possibles:

Réalité virtuelle
Wearables et vêtements intelligents
Internet des objets et contrôleurs de jeux
« Appareils traditionnels » (téléphones portables, tablettes, ordinateurs portables)

Si tous ces types d’appareils devaient intégrer Project Soli, Google pourrait tirer parti d’un cadre gestuel universel que tous auraient en commun. Cela permettrait aux utilisateurs d’utiliser rapidement ces nouveaux appareils, tous interagissant avec la gamme de services de Google.

L’article de Ben Thompson sur Stratechery, « Google and Ambient Computing », analyse le récent changement de Google de déclarer qu’il veut aider à organiser l’information du monde, à celle qui vous aide à faire avancer les choses.

Dans son discours d’ouverture à Made by Google 2019, Rick Osterloh, vice-président senior des appareils et services de Google (qui était auparavant à la tête de Google ATAP), décrit une vision de Google en tant qu’entreprise qui souhaite « vous apporter un Google plus utile. Sundar Pichai a déclaré dans le discours d’ouverture de 20193 I / O que « Nous passons d’une entreprise qui vous aide à trouver des réponses à une entreprise qui vous aide à faire avancer les choses « .

L’informatique ambiante a été inventée pour la première fois par le journaliste technique Walt Mossberg dans sa dernière chronique, « The Disappearing Computer ». Il est également appelé informatique omniprésente ou omniprésente.

Pour quelques lectures supplémentaires sur ce domaine de l’informatique, consultez les travaux de Mark Weiser, scientifique en chef chez Xerox PARC, en particulier son article Scientific American de 1991, « The Computer for the 21st Century ». Weiser a inventé le terme informatique ubiquitaire, qu’il a décrit comme un calcul capable de se produire en utilisant « n’importe quel appareil, dans n’importe quel endroit et dans n’importe quel format ».

Thompson souligne que la vision de Google de l’informatique ambiante « ne concurrence pas le smartphone, mais l’exploite plutôt ». Google n’essaie pas de trouver quelle que soit la prochaine plate-forme matérielle (comme Facebook le faisait avec l’acquisition d’Oculus pour la réalité virtuelle, ou la poussée complète d’Apple dans la réalité augmentée); ratther, ils cherchent à créer un écosystème d’appareils ambiants qui se connectent tous de manière transparente (peut-être en utilisant le smartphone comme hub?) et sont intuitives pour interagir avec; tous connectés aux services fournis par Google.

Avoir une façon unifiée d’interagir avec des appareils qui existent dans divers contextes serait extrêmement bénéfique pour Google pour favoriser l’adoption de leur vision de l’informatique ambiante. Un petit capteur facilement intégrable capable de détecter les gestes des personnes indépendamment de l’éclairage ou d’autres conditions atmosphériques rapprocherait cette vision de la réalité. Cela permettrait aux utilisateurs de s’engager plus facilement avec une grande variété d’appareils qui offriraient un accès aux services de Google.

Indices d’Apple sur l’adoption du radar à ondes mm

Avec la sortie récente d’un iPad Pro compatible LiDAR au service des capacités AR, Apple semble montrer sa volonté de mettre des capteurs de complexité (et d’utilité) toujours croissantes dans ses produits.

De plus, Apple a mis en place au moins une publication pour des rôles liés au radar; une publication désormais inactive sur LinkedIn pour un ingénieur en traitement du signal radar comprend ce qui suit dans sa description:

Il me semble juste de dire qu’à tout le moins, Apple considère le radar à ondes millimétriques comme une modalité de détection; quand, comment et surtout; si un produit Apple compatible Radar quitte les laboratoires de Cupertino, seul le temps pourra le dire.

Ma spéculation personnelle est qu’Apple lancera un casque de réalité augmentée avec radar intégré pour la détection de micro-gestes afin d’augmenter leurs capacités de suivi des mains. De plus, à mesure que le radar deviendra mieux connu en tant que modalité de détection possible (principalement grâce au projet Soli et aux produits dans lesquels Google et ses partenaires décident de l’intégrer), d’autres fabricants de casques de réalité augmentée et de réalité virtuelle commenceront à intégrer des puces radar à ondes millimétriques dans leurs casques afin de résoudre le problème de « l’interface manquante; s’assurer que les objets physiques du monde réel avec lesquels les gens interagissent via la RA / VR ont un moyen de cartographier les informations numériques présentées via le casque.

Compétition

Au moins une start-up travaille sur le radar à ondes millimétriques pour les interfaces homme-machine; KaiKuTek de Taiwan (« CoolTech »). Ils affirment que leur système de détection gestuelle basé sur un radar peut égaler, voire dépasser, le projet Soli de Google.

Une puce d’inférence d’apprentissage automatique est intégrée au capteur radar; ainsi, toute l’inférence se fait au niveau du calcul côté capteur, contrairement au système MotionSense du Pixel 4, dans lequel le capteur (Soli) et le moteur d’inférence sont sur des composants de puce séparés. C’est, affirme KaiKuTek, qu’ils sont capables d’atteindre une puissance aussi faible (1 mW).

Réflexions de clôture

Avec le projet Soli, Google a avancé la conversation sur la façon dont nous interagissons avec les ordinateurs dans un large éventail de modalités et de contextes. Le radar à ondes millimétriques offre un moyen prometteur d’interagir gestuellement avec les ordinateurs sans avoir à se soucier de l’occlusion, des conditions d’éclairage ou des conditions limitantes similaires imposées aux systèmes à caméra.

Avec le rythme croissant de l’intégration d’ordinateurs dans un plus grand nombre d’appareils, le radar à ondes millimétriques pourrait finir par permettre un langage gestuel plus universel qui est familier sur ces appareils. Bien sûr, chaque fabricant aura inévitablement des différences entre eux (bien que Google soit le premier à utiliser le radar à ondes mm comme capteur pour l’interaction gestuelle, cela ne signifie pas que ce sera le dernier), cela pourrait finir par offrir des interactions gestuelles « assez similaires » de la même manière que les écrans tactiles sont presque universels, mais chaque fournisseur OEM permet des gestes différents pour une utilisation avec l’écran tactile.

Annexe:

J’ai inclus des publications supplémentaires traitant du radar à ondes millimétriques et de ses applications en HCI (n’impliquant pas nécessairement le projet Soli). Une bonne partie de ceux-ci se concentrent sur les techniques d’apprentissage automatique utilisées pour permettre la reconnaissance des gestes avec un pipeline radar.

Apprentissage Unique pour une Classification Robuste des Matériaux À l’Aide d’un Système Radar à Ondes Millimétriques
Reconnaissance Des Gestes de la Main À l’aide d’un Tracé I-Q d’Écho Radar et d’un Réseau Neuronal Convolutif
Reconnaissance Des Gestes de la Main à l’aide d’un Système Radar à Ondes Millimétriques
Reconnaissance des Gestes de la Main basée sur des Enveloppes de Signature Radar Micro-Doppler
Réinventer le radar: La puissance de la détection 4D
Reconnaissance Gestuelle à l’aide d’un Capteur à Ondes mm pour une Interface Homme-Voiture
Système de Reconnaissance Gestuelle basé sur un Radar à Courte Portée utilisant CNN 3D avec Perte de Triplet
Reconnaissance Gestuelle de la Main basée sur des Enveloppes de Signature Micro-Doppler Radar
Reconnaissance Gestuelle Robuste à l’aide d’un Système Radar à Ondes Millimétriques
Geste de la Main basé sur TS-I3D Procédé de Reconnaissance avec Capteur Radar
Reconnaissance de Caractères en Écriture Aérienne Basée sur un Réseau de Radars Pour Interface Homme-Machine
Système de Reconnaissance des Gestes de la Main à Base de Radar Doppler Utilisation de Réseaux de Neurones Convolutifs
Susciter des Gestes basés sur le Contact et sans Contact avec des Capteurs basés sur le Radar
Réinventer le radar: La puissance de la détection 4D
Détection de Mouvement à l’aide du Radar: Interaction Gestuelle et au-delà

Brevets liés au Projet Soli:

Entrée de petit Appareil basée sur les gestes
Reconnaissance gestuelle basée sur le radar via un dispositif portable
Recherches assistées par la reconnaissance radar
Authentification basée sur le radar
Fusion de capteurs compatible radar
Reconnaissance gestuelle basée sur le radar à large champ
Reconnaissance gestuelle occluse
Détection gestuelle et transmission de données par radar
Système Radar basé sur un smartphone Facilitant la Facilité et la Précision des Interactions de l’Utilisateur Avec les Objets Affichés dans une Interface de Réalité Augmentée

Articles de presse sur la Lancement et intégration du Pixel 4 avec Project Soli:

Rumeur: La puce radar Project Soli de Google pourrait faire ses débuts dans Google Pixel 4
PROJET Soli de GOOGLE: LA TECHNOLOGIE DERRIÈRE LE RADAR DE DÉTECTION DE MOUVEMENT DU PIXEL 4
Project Soli est la star secrète de l’auto-fuite du Pixel 4 de Google
Détails pratiques du Pixel 4 XL « Déverrouillage du visage », finition arrière, plus encore
Contrôle gestuel grâce à la technologie Infineon-radar dans le smartphone Google Pixel 4
ustwo de Monument Valley crée un jeu de détection de mouvement « Headed South » pour Google Pixel 4
Avec Pixel 4, les paris technologiques expérimentaux de Google entrent enfin sous les projecteurs
Google: Soli Dance DJ by Swift

Projet Soli et l’utilisation à venir du radar dans les interfaces Homme-Machine