Alibabas neueste Innovation TaoAvatar setzt neue Maßstäbe für fotorealistische 3D-Avatare in Echtzeit und macht AR-Kommunikation endlich alltagstauglich.
Die Technologie kombiniert 3D Gaussian Splatting (3DGS) mit einem innovativen Lehrer-Schüler-Netzwerkansatz, um vollständig steuerbare, menschliche Avatare zu erzeugen. Diese digitalen Repräsentationen erreichen nicht nur eine beeindruckende visuelle Qualität, sondern laufen auch mit 90 Bildern pro Sekunde auf mobilen Geräten wie dem Apple Vision Pro – ein entscheidender Faktor für die praktische Nutzung in AR-Anwendungen. Die Avatare folgen einem parametrischen SMPLX++-Template mit konsistenter Topologie, was präzise Kontrolle über Posen, Gesten und Gesichtsausdrücke ermöglicht.
Im Gegensatz zu früheren Technologien benötigt TaoAvatar lediglich Multi-View-Kamerasequenzen als Eingabe und erzielt dabei eine um 2,4 dB bessere PSNR-Bildqualität als vergleichbare Systeme. Gleichzeitig reduziert die Technologie den Speicherbedarf um 70% gegenüber NeRF-basierten Ansätzen.
Technische Innovation auf mehreren Ebenen
Das Herzstück des Systems bildet ein hybrides Repräsentationsmodell, das SMPLX++-Netze mit 3D-Gaussian-Texturen verbindet. Dies ermöglicht sowohl eine präzise geometrische Kontrolle als auch überzeugende dynamische Erscheinungsbilder. Besonders bemerkenswert ist die Verwendung eines Lehrer-Schüler-Frameworks:
- Das StyleUnet-Lehrernetzwerk erfasst hochfrequente Details durch positionsabhängige Deformationskarten
- Das MLP-Schülernetzwerk wird für mobile Endgeräte optimiert und gewährleistet 90 FPS bei 2K-Auflösung
Für die Entwicklung der Technologie nutzte das Forschungsteam den selbst erstellten TalkBody4D-Datensatz mit 59-Kamera-Aufnahmen in 20 FPS und 3K×4K Auflösung. Die Integration von Audio2BS-Technologie ermöglicht zudem die Synchronisation von Lippenbewegungen, Gesichtsausdrücken und Gesten mit gesprochener Sprache.
Werbung
E-Book: ChatGPT für Job & Alltag – Dein praktischer Einstieg
Unser neues E-Book bietet eine leicht verständliche und strukturierte Einführung in die Nutzung von ChatGPT – sowohl im Beruf als auch im Privatleben.
- ✔ Mit zahlreichen Beispielen und direkt anwendbaren Prompts
- ✔ 8 spannende Anwendungsfälle, darunter als Übersetzer, Lernassistent oder Finanzrechner
- ✔ Kompakt auf 40 Seiten, klar und auf das Wesentliche fokussiert
Anwendungsbereiche und Zukunftsperspektiven
Die von Alibaba-Forschern entwickelte Technologie eröffnet vielfältige Einsatzmöglichkeiten:
- AR-Shopping-Assistenten in Lebensgröße für 3D-Produktdemonstrationen
- Holografische Besprechungen mit emotionaler Ausdrucksfähigkeit
- KI-Kundendienst mit natürlicher Körpersprache
Trotz dieser beeindruckenden Fortschritte bestehen noch Herausforderungen bei der Modellierung extremer Gesichtsausdrücke sowie beim hohen Rechenaufwand für die anfängliche Template-Erstellung (ca. 8 Stunden pro Avatar). Mit der geplanten Veröffentlichung des Codes und Datensatzes über Hugging Face dürfte die Technologie jedoch bald breitere Anwendung finden.
Werbung
Zusammenfassung:
- TaoAvatar erzeugt fotorealistische 3D-Avatare mit konsistenter Topologie
- Echtzeit-Rendering mit 90 FPS auf mobilen Geräten und AR-Headsets
- Hybrid-Architektur verbindet 3D Gaussian Splatting mit parametrischen Modellen
- 70% Speichereinsparung gegenüber herkömmlichen Verfahren
- Anwendungen in E-Commerce, AR-Kommunikation und KI-Assistenz
- Integration von Audio-zu-Gesichtsausdruck-Synchronisation für natürliche Interaktionen
Quelle: Taoavatar

Florian Schröder ist Experte im Online-Marketing mit Schwerpunkt PPC (Pay-Per-Click) Kampagnen. Die revolutionären Möglichkeiten der KI erkennt er nicht nur, sondern hat sie bereits fest in seine tägliche Arbeit integriert, um innovative und effektive Marketingstrategien zu entwickeln.
Er ist überzeugt davon, dass die Zukunft des Marketings untrennbar mit der Weiterentwicklung und Nutzung von künstlicher Intelligenz verbunden ist und setzt sich dafür ein, stets am Puls dieser technologischen Entwicklungen zu bleiben.