Tencents HunyuanCustom definiert die KI-gestützte Videoerzeugung neu durch innovative Architektur für konsistente Subjektdarstellung über verschiedene Eingabemodelle hinweg.
Tencent hat mit HunyuanCustom ein Open-Source-Framework veröffentlicht, das die personalisierte Videosynthese auf eine neue Stufe hebt. Das auf HunyuanVideo basierende System – einem KI-Modell mit 13 Milliarden Parametern – integriert Text, Bild, Audio und Video in einer einheitlichen Architektur. Im Gegensatz zu früheren Modellen, die oft mit Identitätskonsistenz kämpften, verwendet HunyuanCustom spezielle Temporal-ID-Module, die Referenzbilder entlang der Zeitachse verarbeiten und so eine bemerkenswerte Kohärenz der dargestellten Subjekte über alle Frames hinweg garantieren.
Die Architektur folgt einem „Dual-Stream to Single-Stream“-Ansatz, der visuelle und textuelle Eingaben zunächst getrennt verarbeitet, bevor sie in einem einheitlichen latenten Raum zusammengeführt werden. Besonders hervorzuheben ist das Text-Bild-Fusionsmodul, das auf LLaVA-Technologie basiert und Bildeinbettungen in den Texttokenraum projiziert, wodurch eine detaillierte Abstimmung zwischen visuellen Subjekten und textuellen Beschreibungen erreicht wird.
Für die audiovisuelle Synthese nutzt HunyuanCustom ein dreistufiges AudioNet-Modul, das Rohaudiosignale in Mel-Spektrogramme umwandelt, temporales Pooling zur Frame-Synchronisation durchführt und Audioeinbettungen durch räumliche Aufmerksamkeitskarten mit visuellen Merkmalen verknüpft. Diese hierarchische Herangehensweise ermöglicht präzise Audio-Video-Synchronisation, was besonders bei musikalischen Inhalten oder Sprachdialogen zum Tragen kommt.
Im Bereich der Video-zu-Video-Transformation setzt das Framework auf ein Latenzkompressionsnetzwerk, das Eingangsvideos in niedrigdimensionale Codes destilliert. Ein innovativer Patch-Disentanglement-Loss trennt dabei Inhalts- von Bewegungsaspekten, was unabhängige Kontrolle über Subjekterscheinung, Bewegungsdynamik und Hintergrundelemente ermöglicht. Diese Trennung bietet vielfältige Anwendungsmöglichkeiten wie Stiltransfer zwischen Videos unter Beibehaltung der ursprünglichen Subjektidentitäten.
Zugänglichkeit und Integration in bestehende Ökosysteme
Während das Basismodell erhebliche Ressourcen erfordert (45 GB VRAM für 544×960 Auflösung), haben Community-Optimierungen die Zugänglichkeit dramatisch verbessert. FP8-Quantisierung reduziert den VRAM-Verbrauch auf 24 GB bei minimalen Qualitätseinbußen, während selektives Layer-Pruning 95% der Ausgangsqualität bei nur 18 GB VRAM beibehält. Diese Optimierungen ermöglichen den Einsatz auf Consumer-GPUs wie der RTX 4090.
Die Integration in ComfyUI durch vorgefertigte Nodes erlaubt die visuelle Programmierung komplexer Generierungspipelines, während die Einbindung in LangChain durch die TencentHunyuanEmbeddings
-Klasse die Nutzung von Videosemantik in RAG-Pipelines ermöglicht. Ein wachsendes Ökosystem von Community-Tools, darunter automatische Prompt-Verbesserung und Frame-Interpolations-Plugins, senkt zusätzlich die Einstiegshürde für professionelle Videosynthese.
Werbung
Zusammenfassung
- HunyuanCustom ist ein Open-Source-Framework für multimodale Videogenerierung mit besonderem Fokus auf Subjektkonsistenz
- Das auf dem 13-Milliarden-Parameter-Modell HunyuanVideo basierende System übertrifft bestehende Methoden bei ID-Konsistenz, Realismus und Text-Video-Alignment
- Innovative Module wie Text-Bild-Fusion und Bild-ID-Enhancement ermöglichen präzise Kontrolle über generierte Inhalte
- Audiovisuelle Synchronisation durch ein dreistufiges AudioNet-Modul sorgt für kohärente Ton-Bild-Verbindungen
- Quantisierungstechniken und Community-Optimierungen senken Hardware-Anforderungen von 45GB auf bis zu 18GB VRAM
- Integration in ComfyUI und LangChain erleichtert die Einbindung in bestehende KI-Workflows
Quelle: GitHub

Florian Schröder ist Experte im Online-Marketing mit Schwerpunkt PPC (Pay-Per-Click) Kampagnen. Die revolutionären Möglichkeiten der KI erkennt er nicht nur, sondern hat sie bereits fest in seine tägliche Arbeit integriert, um innovative und effektive Marketingstrategien zu entwickeln.
Er ist überzeugt davon, dass die Zukunft des Marketings untrennbar mit der Weiterentwicklung und Nutzung von künstlicher Intelligenz verbunden ist und setzt sich dafür ein, stets am Puls dieser technologischen Entwicklungen zu bleiben.