UI-TARS-1.5: ByteDances KI-Agent übertrifft GPT-4 und Claude in GUI-Tests

KI-gestützte Agenten erreichen ein neues Niveau. ByteDance hat mit UI-TARS-1.5 einen multimodalen Agenten entwickelt, der grafische Benutzeroberflächen verstehen und bedienen kann – mit deutlich besseren Ergebnissen als bisherige Modelle wie Claude und GPT-4.

Der auf einem Vision-Language-Modell basierende Agent ist in der Lage, komplexe Aufgaben in verschiedenen GUI-Umgebungen auszuführen. Mit einer beeindruckenden Genauigkeit von 61,6% beim ScreenSpotPro-Benchmark übertrifft UI-TARS-1.5 die Konkurrenz deutlich: Claude-3 erreicht hier lediglich 27,7%, während GPT-4o auf 41,2% kommt.

Technische Innovationen als Treiber des Erfolgs

Die technische Architektur von UI-TARS-1.5 basiert auf dem Qwen2.5-VL-7B-Modell, wurde jedoch mit 1,5 Milliarden GUI-spezifischen Trainingsdaten optimiert. Der visuelle Encoder verarbeitet Screenshots in 1120x1120 Auflösung und ermöglicht eine präzise Lokalisierung von UI-Elementen mit weniger als 5 Pixel Koordinatenfehler.

Besonders bemerkenswert ist der "Think-before-Act"-Ansatz, der komplexe, mehrstufige Aktionen ermöglicht. In Minecraft-Navigationsaufgaben reduziert dieser Mechanismus fehlerhafte Blockplatzierungen um 38% im Vergleich zu direkten Aktionsvorhersagen. Die Leistungsfähigkeit zeigt sich auch in Gaming-Umgebungen: In 14 Poki.com-Minispielen erreicht UI-TARS-1.5 perfekte Ergebnisse 2,4 Mal schneller als menschliche Spieler.

Werbung

Rechtlicher Hinweis: Diese Website setzt Affiliate-Links zum Amazon-Partnerprogramm ein. Der Betreiber der Website verdient durch qualifizierte Käufe eine Provision. Dadurch finanzieren wir die Kosten dieser Website, wie z.B. für Server-Hosting und weitere Ausgaben.

Zusammenfassung

  • UI-TARS-1.5 ist ein Open-Source-KI-Agent von ByteDance, der in sieben GUI-Benchmarks neue Bestwerte erzielt
  • Das Modell nutzt verstärktes Lernen mit 450.000 von Menschen kommentierten Interaktionspfaden
  • In Enterprise-Anwendungen reduziert UI-TARS-1.5 die RPA-Skripterstellungszeit um 68%
  • Die Rechenkosten sind 43% niedriger als bei GPT-4V (0,12$/1.000 Aktionen vs. 0,21$/1.000 Aktionen)
  • ByteDances Roadmap umfasst multimodale Gedächtnismodule und ROS-basierte Robotiksteuerung

Quelle: Seed Tars

Werbung

Ebook - ChatGPT for Work and Life - The Beginners Guide to getting more done

E-Book: ChatGPT für Job & Alltag – Dein praktischer Einstieg

Unser neues E-Book bietet eine leicht verständliche und strukturierte Einführung in die Nutzung von ChatGPT – sowohl im Beruf als auch im Privatleben.

  • Mit zahlreichen Beispielen und direkt anwendbaren Prompts
  • 8 spannende Anwendungsfälle, darunter als Übersetzer, Lernassistent oder Finanzrechner
  • Kompakt auf 40 Seiten, klar und auf das Wesentliche fokussiert

Jetzt ansehen & durchstarten