Helix: Die neue Vision-Language-Action Technologie zur Steuerung von humanoiden Robotern

Die technologische Weiterentwicklung humanoider Roboter hat einen bedeutenden Meilenstein erreicht. Das Unternehmen Figure AI präsentierte mit Helix eine neue Vision-Language-Action (VLA)-Modellplattform zur Echtzeit-Steuerung humanoider Roboter per Spracheingabe. Dabei hebt sich diese Innovation durch die Kombination von visueller und sprachbasierter Datenverarbeitung sowie Bewegungssteuerung hervor und verspricht, die Interaktion zwischen Mensch und Maschine grundlegend neu zu definieren.

Fortschrittliche Technologie – Modular und effizient

Das Herzstück von Helix ist ein innovatives Zwei-Komponenten-System, das aus einem multimodalen Sprachmodell mit 7 Milliarden Parametern und einer komplementären Bewegungs-KI mit 80 Millionen Parametern besteht. Diese implementierte Infrastruktur ermöglicht es, dass humanoide Roboter präzise Bewegungsabläufe ausführen können, während sie bis zu 35 Freiheitsgrade gleichzeitig koordinieren. Besonders bemerkenswert ist die Fähigkeit, eine Vielzahl von unbekannten Haushaltsgegenständen zu erkennen und zu handhaben, ohne zuvor auf deren spezifische Eigenschaften trainiert worden zu sein.

Zusätzlich setzt Helix neue Maßstäbe hinsichtlich der Effizienz: Mit lediglich 500 Stunden Trainingsdaten wurde ein System geschaffen, das Aufgaben mit beeindruckender Präzision ausführt. Im Vergleich zu anderen Ansätzen, die oft ein Vielfaches an Trainingszeit benötigen, unterstreicht dies die Relevanz und Machbarkeit von Helix für wirtschaftliche Anwendungen.

 

Potenzielle Anwendungen in häuslichen Umgebungen

Ein zentrales Ziel ist die Nutzung humanoider Roboter in privaten Haushalten, um alltägliche Tätigkeiten zu erleichtern, wie beispielsweise das Sortieren von Lebensmitteln oder die Zusammenarbeit bei komplexeren Aufgaben. Ein Video demonstrierte dieses Potenzial eindrucksvoll: Zwei Roboter legten Lebensmittel in einen Kühlschrank, ohne spezifische Vorab-Trainingsdaten für die jeweils verwendeten Gegenstände.

Während viele Branchenakteure sich derzeit auf industrielle oder arbeitsplatzbezogene Roboteranwendungen konzentrieren, verfolgt Figure AI mit seiner Haushaltsfokussierung einen strategisch überraschenden Ansatz. Indem das Unternehmen eine embedded-fähige Verarbeitung auf Basis von integrierten GPUs nutzt, wird Helix praxisnah und marktreif für den breiten Konsumentenmarkt entwickelt.

Herausforderungen und Chancen für die Roboterbranche

Trotz dieser Fortschritte gibt es offene Fragen. Eine zentrale Herausforderung bleibt die Realwelt-Performance humanoider Roboter innerhalb unkontrollierter Umgebungen. Hinzu kommen Themen wie SicherheitsstandardsProduktpreisgestaltung und die klare Definition der Nutzeranwendungsfälle.

Der Markt für humanoide Roboter wächst dynamisch: Projektionen gehen von einer durchschnittlichen Wachstumsrate von 96 % jährlich zwischen 2022 und 2030 aus. Helix bringt dabei nicht nur technologischen Fortschritt, sondern könnte maßgeblich dazu beitragen, die Akzeptanz und Integration durch Endverbraucher zu fördern – vorausgesetzt, die genannten Hürden lassen sich bewältigen.

Die wichtigsten Fakten zur Helix-Innovation:

  • Technologie: Multimodales Sprach- und Aktivitätssystem mit 7 Milliarden und 80 Millionen Parametern.
  • Kernfähigkeiten: Realzeitsteuerung von humanoiden Robotern mit 35 Bewegungsfreiheitsgraden.
  • Anwendungsbereich: Optimierung für Haushaltsaufgaben durch visuelle Datenverarbeitung und Sprach-Prompts.
  • Effizienz: Kurze Trainingszeit von nur 500 Stunden bei umfangreichem Anwendungsspektrum.
  • Kommerzialisierung: Integration auf eingebetteten GPUs für marktfähige Produkte.

Quelle: Figure AI