UI-TARS-1.5: ByteDances KI-Agent übertrifft GPT-4 und Claude in GUI-Tests

KI-gestützte Agenten erreichen ein neues Niveau. ByteDance hat mit UI-TARS-1.5 einen multimodalen Agenten entwickelt, der grafische Benutzeroberflächen verstehen und bedienen kann – mit deutlich besseren Ergebnissen als bisherige Modelle wie Claude und GPT-4.

Der auf einem Vision-Language-Modell basierende Agent ist in der Lage, komplexe Aufgaben in verschiedenen GUI-Umgebungen auszuführen. Mit einer beeindruckenden Genauigkeit von 61,6% beim ScreenSpotPro-Benchmark übertrifft UI-TARS-1.5 die Konkurrenz deutlich: Claude-3 erreicht hier lediglich 27,7%, während GPT-4o auf 41,2% kommt.

Table of Contents

Technische Innovationen als Treiber des Erfolgs

Die technische Architektur von UI-TARS-1.5 basiert auf dem Qwen2.5-VL-7B-Modell, wurde jedoch mit 1,5 Milliarden GUI-spezifischen Trainingsdaten optimiert. Der visuelle Encoder verarbeitet Screenshots in 1120×1120 Auflösung und ermöglicht eine präzise Lokalisierung von UI-Elementen mit weniger als 5 Pixel Koordinatenfehler.

Besonders bemerkenswert ist der „Think-before-Act“-Ansatz, der komplexe, mehrstufige Aktionen ermöglicht. In Minecraft-Navigationsaufgaben reduziert dieser Mechanismus fehlerhafte Blockplatzierungen um 38% im Vergleich zu direkten Aktionsvorhersagen. Die Leistungsfähigkeit zeigt sich auch in Gaming-Umgebungen: In 14 Poki.com-Minispielen erreicht UI-TARS-1.5 perfekte Ergebnisse 2,4 Mal schneller als menschliche Spieler.

Rechtlicher Hinweis: Diese Website setzt Affiliate-Links zum Amazon-Partnerprogramm ein. Der Betreiber der Website verdient durch qualifizierte Käufe eine Provision. Dadurch finanzieren wir die Kosten dieser Website, wie z.B. für Server-Hosting und weitere Ausgaben.

Zusammenfassung

UI-TARS-1.5 ist ein Open-Source-KI-Agent von ByteDance, der in sieben GUI-Benchmarks neue Bestwerte erzielt
Das Modell nutzt verstärktes Lernen mit 450.000 von Menschen kommentierten Interaktionspfaden
In Enterprise-Anwendungen reduziert UI-TARS-1.5 die RPA-Skripterstellungszeit um 68%
Die Rechenkosten sind 43% niedriger als bei GPT-4V (0,12$/1.000 Aktionen vs. 0,21$/1.000 Aktionen)
ByteDances Roadmap umfasst multimodale Gedächtnismodule und ROS-basierte Robotiksteuerung

Quelle: Seed Tars

Die besten kostenlosen AI-Tools

Alle KI-Tools ansehen

Florian Schröder

Florian Schröder ist Experte im Online-Marketing mit Schwerpunkt PPC (Pay-Per-Click) Kampagnen. Die revolutionären Möglichkeiten der KI erkennt er nicht nur, sondern hat sie bereits fest in seine tägliche Arbeit integriert, um innovative und effektive Marketingstrategien zu entwickeln.

Er ist überzeugt davon, dass die Zukunft des Marketings untrennbar mit der Weiterentwicklung und Nutzung von künstlicher Intelligenz verbunden ist und setzt sich dafür ein, stets am Puls dieser technologischen Entwicklungen zu bleiben.

Technische Innovationen als Treiber des Erfolgs

Zusammenfassung

Related Posts: