RLT von Sakana AI: Kleine KI-Lehrer trainieren große Modelle – Durchbruch im maschinellen Lernen

Sakana AIs Reinforcement Learning Teachers (RLT) stellen die etablierten Ansätze beim Training großer Sprachmodelle auf den Kopf – kleine 7B-Parameter-Modelle können nun erfolgreich 32B-Parameter-Studenten unterrichten.

Die von Sakana AI entwickelte RLT-Methodik basiert auf einem grundlegend neuen Prinzip: Anstatt Lehrer-Modelle für die Korrektheit ihrer eigenen Lösungen zu belohnen, erhalten sie Belohnungen basierend darauf, wie gut ihre Erklärungen den Studenten-Modellen beim Lernen helfen. Dieser Ansatz ermöglicht es einem 7B-Parameter-Lehrer, sowohl größere Modelle wie QwQ-32B als auch etablierte Systeme wie DeepSeek R1 in verschiedenen Benchmarks zu übertreffen – und das bei einem Bruchteil der Rechenkosten.

Das zweiphasige Trainingssystem kombiniert überwachtes Lernen mit verstärkendem Lernen auf innovative Weise. In der ersten Phase durchlaufen die Lehrer-Modelle eine überwachte Feinabstimmung mit Frage-Antwort-Paaren aus dem bespokelabs/Bespoke-Stratos-17k-Datensatz. Die zweite Phase nutzt verstärkendes Lernen, wobei die Belohnungssignale direkt von der Leistung der Studenten-Modelle abgeleitet werden. Diese Architektur erfordert nur wenige Tage Training im Vergleich zu den Wochen, die herkömmliche RLHF-Methoden benötigen.

Die Leistungsdaten sprechen eine deutliche Sprache: Der RLT-7B-Lehrer erreicht 23,3% beim AIME 2024-Benchmark, 82,8% bei MATH 500 und 42,4% bei GPQA Diamond. Damit übertrifft er nicht nur das 7B-Bespoke-Basismodell, sondern auch das viermal größere QwQ-32B-Modell bei GPQA Diamond-Tests. Wenn das System auf 32B-Studenten skaliert wird, erreicht RLT-32B beeindruckende 89,7% bei MATH500 und 68,3% bei GPQA Diamond.

Technische Architektur und Systemdesign

Die RLT-Pipeline unterscheidet sich fundamental von traditionellen Ansätzen durch ihre Lehrer-Studenten-Schnittstelle. Lehrer erhalten Frage-Lösungs-Paare und generieren schrittweise Erklärungen mit spezialisierten Reasoning-Tags. Das Belohnungsmodell berechnet dabei reward = f(student_solution_accuracy | teacher_explanation) anstatt der üblichen reward = f(teacher_solution_correctness).

Die besten kostenlosen AI-Tools

Die besten kostenlosen KI-Tools
Alle KI-Tools ansehen

Der Destillationsprozess umfasst drei kritische Anpassungen für optimale Ergebnisse: Für 32B+ Studenten wird eine Multi-Trace-Sammlung implementiert, um Context-Window-Überläufe zu verhindern. Die Qualitätskontrolle verwendet rohe RLT-Ausgaben ohne Nachbearbeitung, um den pädagogischen Wert zu erhalten. Die Curriculum-Ausrichtung behält identische Hyperparameter bei, einschließlich einer Lernrate von 1e-6 und einer Batch-Größe von 1024.

Werbung

Rechtlicher Hinweis: Diese Website setzt Affiliate-Links zum Amazon-Partnerprogramm ein. Der Betreiber der Website verdient durch qualifizierte Käufe eine Provision. Dadurch finanzieren wir die Kosten dieser Website, wie z.B. für Server-Hosting und weitere Ausgaben.

Praktische Implementierung und Wirtschaftliche Auswirkungen

Die Hardwareanforderungen für RLT bleiben moderat: 8× H100 GPUs für die Aufwärmphase, 4× Parameter-Server plus 4× Lerner für die RL-Phase und 400GB Speicher für das Training von 32B-Studenten. Die gesamte RLT-Trainingspipeline erfordert etwa 15.000 Dollar an Rechenressourcen im Vergleich zu über 2 Millionen Dollar für traditionelle RLHF-Implementierungen.

Die Open-Source-Verfügbarkeit der Modelle RLT-7B und RLT-32B auf Hugging Face unter Apache 2.0-Lizenz demokratisiert den Zugang zu fortgeschrittenen Reasoning-Fähigkeiten. Kleinere Forschungsgruppen und Unternehmen können nun hochwertige Reasoning-Modelle entwickeln, ohne massive Rechenressourcen zu benötigen. Diese Zugänglichkeit könnte die Entwicklung spezialisierter KI-Anwendungen in verschiedenen Bereichen beschleunigen.

Zusammenfassung:
• RLT ermöglicht es 7B-Modellen, 32B-Studenten erfolgreich zu trainieren – ein Paradigmenwechsel in der KI-Entwicklung
• Belohnungssystem basiert auf Studenten-Performance statt auf Lehrer-Korrektheit, was effizienteres Lernen ermöglicht
• Deutlich geringere Kosten: 15.000 Dollar vs. 2+ Millionen Dollar für traditionelle Methoden
• Überlegene Benchmark-Ergebnisse: RLT-7B übertrifft QwQ-32B bei GPQA Diamond-Tests
• Open-Source-Verfügbarkeit unter Apache 2.0-Lizenz demokratisiert Zugang zu fortgeschrittenen Reasoning-Modellen
• Zweiphasiges Training kombiniert überwachtes Lernen mit verstärkendem Lernen in nur wenigen Tagen
• Praktische Anwendbarkeit durch moderate Hardwareanforderungen und detaillierte Implementierungsanleitungen

Quelle: GitHub