KubernetesでのRAGコンポーネントの水平自動スケーリング
2025-12-13
この記事では、NVIDIAのRAGシステムをKubernetes上で自動スケーリングする方法を説明しています。特に、カスタマーサービスチャットボットのケーススタディを通じて、Horizontal Pod Autoscaling (HPA)を使い、NIMマイクロサービスのスケーリングを行います。主なメトリクスとしては、同時リクエスト数やTTFTの90パーセンタイルが使用され、高い負荷にも耐えられるシステム構築が可能です。