Sakana AIs Reinforcement Learning Teachers (RLT) stellen die etablierten Ansätze beim Training großer Sprachmodelle auf den Kopf – kleine 7B-Parameter-Modelle können nun erfolgreich 32B-Parameter-Studenten unterrichten.
Die von Sakana AI entwickelte RLT-Methodik basiert auf einem grundlegend neuen Prinzip: Anstatt Lehrer-Modelle für die Korrektheit ihrer eigenen Lösungen zu belohnen, erhalten sie Belohnungen basierend darauf, wie gut ihre Erklärungen den Studenten-Modellen beim Lernen helfen. Dieser Ansatz ermöglicht es einem 7B-Parameter-Lehrer, sowohl größere Modelle wie QwQ-32B als auch etablierte Systeme wie DeepSeek R1 in verschiedenen Benchmarks zu übertreffen – und das bei einem Bruchteil der Rechenkosten.
Das zweiphasige Trainingssystem kombiniert überwachtes Lernen mit verstärkendem Lernen auf innovative Weise. In der ersten Phase durchlaufen die Lehrer-Modelle eine überwachte Feinabstimmung mit Frage-Antwort-Paaren aus dem bespokelabs/Bespoke-Stratos-17k-Datensatz. Die zweite Phase nutzt verstärkendes Lernen, wobei die Belohnungssignale direkt von der Leistung der Studenten-Modelle abgeleitet werden. Diese Architektur erfordert nur wenige Tage Training im Vergleich zu den Wochen, die herkömmliche RLHF-Methoden benötigen.
Die Leistungsdaten sprechen eine deutliche Sprache: Der RLT-7B-Lehrer erreicht 23,3% beim AIME 2024-Benchmark, 82,8% bei MATH 500 und 42,4% bei GPQA Diamond. Damit übertrifft er nicht nur das 7B-Bespoke-Basismodell, sondern auch das viermal größere QwQ-32B-Modell bei GPQA Diamond-Tests. Wenn das System auf 32B-Studenten skaliert wird, erreicht RLT-32B beeindruckende 89,7% bei MATH500 und 68,3% bei GPQA Diamond.
Technische Architektur und Systemdesign
Die RLT-Pipeline unterscheidet sich fundamental von traditionellen Ansätzen durch ihre Lehrer-Studenten-Schnittstelle. Lehrer erhalten Frage-Lösungs-Paare und generieren schrittweise Erklärungen mit spezialisierten Reasoning-Tags. Das Belohnungsmodell berechnet dabei reward = f(student_solution_accuracy | teacher_explanation)
anstatt der üblichen reward = f(teacher_solution_correctness)
.
Der Destillationsprozess umfasst drei kritische Anpassungen für optimale Ergebnisse: Für 32B+ Studenten wird eine Multi-Trace-Sammlung implementiert, um Context-Window-Überläufe zu verhindern. Die Qualitätskontrolle verwendet rohe RLT-Ausgaben ohne Nachbearbeitung, um den pädagogischen Wert zu erhalten. Die Curriculum-Ausrichtung behält identische Hyperparameter bei, einschließlich einer Lernrate von 1e-6 und einer Batch-Größe von 1024.
Werbung
Praktische Implementierung und Wirtschaftliche Auswirkungen
Die Hardwareanforderungen für RLT bleiben moderat: 8× H100 GPUs für die Aufwärmphase, 4× Parameter-Server plus 4× Lerner für die RL-Phase und 400GB Speicher für das Training von 32B-Studenten. Die gesamte RLT-Trainingspipeline erfordert etwa 15.000 Dollar an Rechenressourcen im Vergleich zu über 2 Millionen Dollar für traditionelle RLHF-Implementierungen.
Die Open-Source-Verfügbarkeit der Modelle RLT-7B und RLT-32B auf Hugging Face unter Apache 2.0-Lizenz demokratisiert den Zugang zu fortgeschrittenen Reasoning-Fähigkeiten. Kleinere Forschungsgruppen und Unternehmen können nun hochwertige Reasoning-Modelle entwickeln, ohne massive Rechenressourcen zu benötigen. Diese Zugänglichkeit könnte die Entwicklung spezialisierter KI-Anwendungen in verschiedenen Bereichen beschleunigen.
Zusammenfassung:
• RLT ermöglicht es 7B-Modellen, 32B-Studenten erfolgreich zu trainieren – ein Paradigmenwechsel in der KI-Entwicklung
• Belohnungssystem basiert auf Studenten-Performance statt auf Lehrer-Korrektheit, was effizienteres Lernen ermöglicht
• Deutlich geringere Kosten: 15.000 Dollar vs. 2+ Millionen Dollar für traditionelle Methoden
• Überlegene Benchmark-Ergebnisse: RLT-7B übertrifft QwQ-32B bei GPQA Diamond-Tests
• Open-Source-Verfügbarkeit unter Apache 2.0-Lizenz demokratisiert Zugang zu fortgeschrittenen Reasoning-Modellen
• Zweiphasiges Training kombiniert überwachtes Lernen mit verstärkendem Lernen in nur wenigen Tagen
• Praktische Anwendbarkeit durch moderate Hardwareanforderungen und detaillierte Implementierungsanleitungen
Quelle: GitHub

Florian Schröder ist Experte im Online-Marketing mit Schwerpunkt PPC (Pay-Per-Click) Kampagnen. Die revolutionären Möglichkeiten der KI erkennt er nicht nur, sondern hat sie bereits fest in seine tägliche Arbeit integriert, um innovative und effektive Marketingstrategien zu entwickeln.
Er ist überzeugt davon, dass die Zukunft des Marketings untrennbar mit der Weiterentwicklung und Nutzung von künstlicher Intelligenz verbunden ist und setzt sich dafür ein, stets am Puls dieser technologischen Entwicklungen zu bleiben.