Plier le linge pourrait bientôt devenir un lointain souvenir. Dans une vidéo, la société Figure montre son robot humanoïde Figure 02 en pleine action. Il prend des serviettes une par une, les plie avec soin et les empile dans un panier.

Derrière cette scène se cache Helix, un modèle d'IA de type Vision-Langage-Action (VLA) qui fusionne perception, compréhension et action pour accomplir des tâches complexes avec une adaptabilité quasi humaine.

Une prouesse technique pour un geste du quotidien

Pour un humain, plier une serviette est anodin. Pour un robot, c'est un véritable casse-tête. Le tissu est un objet déformable, sans géométrie fixe, qui change de forme au moindre contact. Il n'y a pas de point de saisie unique et correct. La réussite exige une coordination extrême des doigts pour suivre les bords, pincer les coins ou lisser les plis en temps réel.

D'après Figure, c'est une grande première. Un robot humanoïde doté de mains à plusieurs doigts parvient à plier du linge de façon totalement autonome, en s'appuyant uniquement sur un réseau de neurones de bout en bout. Le système ne se base pas sur des représentations rigides des objets, il analyse directement ce qu'il voit pour générer des mouvements fluides et précis.

Helix, un cerveau unique pour des tâches multiples

Le plus impressionnant dans cette démonstration est peut-être la polyvalence du système. L'architecture d'Helix qui a permis de gérer des tâches de logistique industrielle a été appliquée directement au pliage du linge. Seule la base de données d'entraînement a été ajoutée, sans aucune modification du modèle. Cela prouve sa capacité à passer d'un environnement industriel à des corvées domestiques sans effort.

Le robot a ainsi appris par lui-même à ajuster ses stratégies de pliage selon la position initiale de la serviette, à corriger ses erreurs et à faire preuve d'une manipulation fine. Il peut, par exemple, démêler une serviette ou suivre un bord avec son pouce avant de la plier.

figure-02-robot-plier-linge

Comment fonctionne cette IA ?

Le secret de cette efficacité repose sur une conception en deux parties. Un premier système (S2), un grand modèle de langage et de vision (VLM) pré-entraîné sur internet, s'occupe de la compréhension de la scène et du raisonnement complexe.

Un second système (S1), beaucoup plus rapide, traduit ces analyses en actions motrices précises et immédiates. Une telle séparation garantit à la fois une réflexion poussée et une exécution réactive.

Pour atteindre ce niveau de performance, le modèle a été entraîné sur environ 500 heures de comportements avec téléopération par des humains. Optimisé pour fonctionner sur des processeurs graphiques à faible consommation, Helix est déjà pensé pour un déploiement commercial pratique.