Die Grenzen zwischen verschiedenen Medien verschwimmen zunehmend durch bahnbrechende KI-Modelle. Das neue Diffusion-Transformer-Modell AudioX setzt neue Maßstäbe in der Erzeugung von Klang aus nahezu jeder Eingabequelle.
AudioX repräsentiert einen bedeutenden Fortschritt in der generativen KI-Technologie, da es als erstes Modell Text, Video, Bilder und bestehende Audiodaten als Eingabe verarbeiten kann, um hochwertige Klänge und Musik zu erzeugen. Die Entwickler haben eine neuartige multimodale Maskierungsstrategie implementiert, die dem Modell ermöglicht, robuste Verbindungen zwischen verschiedenen Medientypen herzustellen. Diese Technik verbirgt während des Trainings gezielt Teile der Eingabedaten, wodurch das Modell gezwungen wird, fehlende Informationen aus den verfügbaren Modalitäten zu erschließen.
Für das Training wurden zwei umfangreiche Datensätze genutzt: VGGSound-Caps mit 190.000 Audioaufnahmen und zugehörigen natürlichsprachlichen Beschreibungen sowie V2M-Caps mit 6 Millionen Musikstücken, die mit detaillierten Metadaten annotiert wurden. Diese Datenbasis ermöglicht AudioX, kontextuell passende Klanglandschaften zu verschiedensten Eingaben zu generieren.
Vielseitige Anwendungsmöglichkeiten
In Leistungstests übertrifft AudioX spezialisierte Modelle in diversen Bereichen. Bei der Text-zu-Audio-Synthese erzielt das Modell einen Inception Score von 4,32 gegenüber 3,89 bei AudioLDM und 3,75 bei Make-An-Audio, was auf eine höhere Klangqualität und -vielfalt hinweist. Besonders beeindruckend ist die Fähigkeit, aus stummen Videosequenzen synchronisierte Soundeffekte zu erzeugen, die perfekt mit visuellen Ereignissen harmonieren.
Auch im Bereich der Musikkomposition zeigt AudioX bemerkenswerte Fähigkeiten. Das System kann aus Textbeschreibungen oder Videoaufnahmen von Musikern passende Melodien generieren, die Tonalität und Rhythmus der dargestellten Szene aufgreifen. Die Möglichkeit zum Stiltransfer erlaubt es zudem, bestehende Musikstücke in unterschiedliche Genres oder Instrumentierungen zu übertragen.
Werbung
E-Book: ChatGPT für Job & Alltag – Dein praktischer Einstieg
Unser neues E-Book bietet eine leicht verständliche und strukturierte Einführung in die Nutzung von ChatGPT – sowohl im Beruf als auch im Privatleben.
- ✔ Mit zahlreichen Beispielen und direkt anwendbaren Prompts
- ✔ 8 spannende Anwendungsfälle, darunter als Übersetzer, Lernassistent oder Finanzrechner
- ✔ Kompakt auf 40 Seiten, klar und auf das Wesentliche fokussiert
Werbung
Zukunftsperspektiven und Anwendungsfelder
- Vereinheitlichte Architektur für verschiedene Audio-Generierungsaufgaben, die separate spezialisierte Modelle überflüssig macht
- Überlegene Leistung in Bezug auf Klangqualität, Vielseitigkeit und modalitätsübergreifende Kohärenz
- Effiziente Ressourcennutzung trotz Komplexität, mit Betriebsfähigkeit auf GPUs mit nur 8GB VRAM
- Breites Anwendungsspektrum von Filmproduktion über Barrierefreiheitstools bis hin zu interaktiver Unterhaltung
- Integrationspotenzial mit verwandten Technologien wie UniForm für gemeinsame Audio-Video-Generierung
Quelle: GitHub

Florian Schröder ist Experte im Online-Marketing mit Schwerpunkt PPC (Pay-Per-Click) Kampagnen. Die revolutionären Möglichkeiten der KI erkennt er nicht nur, sondern hat sie bereits fest in seine tägliche Arbeit integriert, um innovative und effektive Marketingstrategien zu entwickeln.
Er ist überzeugt davon, dass die Zukunft des Marketings untrennbar mit der Weiterentwicklung und Nutzung von künstlicher Intelligenz verbunden ist und setzt sich dafür ein, stets am Puls dieser technologischen Entwicklungen zu bleiben.