NVIDIA NeMo-RLでGRPOを使った学習法
2025-07-10
この記事では、NVIDIA NeMo-RLを用いて、Group Relative Policy Optimization (GRPO)アルゴリズムを使ったDeepScaleR-1.5Bレシピの再現方法を紹介します。NeMo-RLは、単一GPUから数千GPUに対応した柔軟なポストトレーニングライブラリで、Hugging Faceとの統合が特徴です。具体的には、8K、16K、24Kのコンテキスト長で段階的に訓練を行い、AIME24ベンチマークでOpenAI O1を超える性能を達成することを目指します。