KI-gestützte Agenten erreichen ein neues Niveau. ByteDance hat mit UI-TARS-1.5 einen multimodalen Agenten entwickelt, der grafische Benutzeroberflächen verstehen und bedienen kann – mit deutlich besseren Ergebnissen als bisherige Modelle wie Claude und GPT-4.
Der auf einem Vision-Language-Modell basierende Agent ist in der Lage, komplexe Aufgaben in verschiedenen GUI-Umgebungen auszuführen. Mit einer beeindruckenden Genauigkeit von 61,6% beim ScreenSpotPro-Benchmark übertrifft UI-TARS-1.5 die Konkurrenz deutlich: Claude-3 erreicht hier lediglich 27,7%, während GPT-4o auf 41,2% kommt.
Technische Innovationen als Treiber des Erfolgs
Die technische Architektur von UI-TARS-1.5 basiert auf dem Qwen2.5-VL-7B-Modell, wurde jedoch mit 1,5 Milliarden GUI-spezifischen Trainingsdaten optimiert. Der visuelle Encoder verarbeitet Screenshots in 1120x1120 Auflösung und ermöglicht eine präzise Lokalisierung von UI-Elementen mit weniger als 5 Pixel Koordinatenfehler.
Besonders bemerkenswert ist der "Think-before-Act"-Ansatz, der komplexe, mehrstufige Aktionen ermöglicht. In Minecraft-Navigationsaufgaben reduziert dieser Mechanismus fehlerhafte Blockplatzierungen um 38% im Vergleich zu direkten Aktionsvorhersagen. Die Leistungsfähigkeit zeigt sich auch in Gaming-Umgebungen: In 14 Poki.com-Minispielen erreicht UI-TARS-1.5 perfekte Ergebnisse 2,4 Mal schneller als menschliche Spieler.
Werbung
Zusammenfassung
- UI-TARS-1.5 ist ein Open-Source-KI-Agent von ByteDance, der in sieben GUI-Benchmarks neue Bestwerte erzielt
- Das Modell nutzt verstärktes Lernen mit 450.000 von Menschen kommentierten Interaktionspfaden
- In Enterprise-Anwendungen reduziert UI-TARS-1.5 die RPA-Skripterstellungszeit um 68%
- Die Rechenkosten sind 43% niedriger als bei GPT-4V (0,12$/1.000 Aktionen vs. 0,21$/1.000 Aktionen)
- ByteDances Roadmap umfasst multimodale Gedächtnismodule und ROS-basierte Robotiksteuerung
Quelle: Seed Tars
Werbung
E-Book: ChatGPT für Job & Alltag – Dein praktischer Einstieg
Unser neues E-Book bietet eine leicht verständliche und strukturierte Einführung in die Nutzung von ChatGPT – sowohl im Beruf als auch im Privatleben.
- ✔ Mit zahlreichen Beispielen und direkt anwendbaren Prompts
- ✔ 8 spannende Anwendungsfälle, darunter als Übersetzer, Lernassistent oder Finanzrechner
- ✔ Kompakt auf 40 Seiten, klar und auf das Wesentliche fokussiert

Florian Schröder ist Experte im Online-Marketing mit Schwerpunkt PPC (Pay-Per-Click) Kampagnen. Die revolutionären Möglichkeiten der KI erkennt er nicht nur, sondern hat sie bereits fest in seine tägliche Arbeit integriert, um innovative und effektive Marketingstrategien zu entwickeln.
Er ist überzeugt davon, dass die Zukunft des Marketings untrennbar mit der Weiterentwicklung und Nutzung von künstlicher Intelligenz verbunden ist und setzt sich dafür ein, stets am Puls dieser technologischen Entwicklungen zu bleiben.