FlashAttention-4でメモリボトルネックを解消
2026-01-23
FlashAttention-4 (FA4)は、NVIDIA Blackwellアーキテクチャ向けに最適化されたCUDAカーネルの最新バージョンです。FA4は、自己注意メカニズムの計算・メモリ複雑性を劇的に改善し、最大1,605 TFLOPS/sの性能を実現します。主な特徴は、メモリアクセスの最小化、メモリ複雑性のO(N2)からO(N)への削減、テンソルメモリを利用したバックワードパスの最適化です。これにより、より長いトークンシーケンスを処理でき、AIアプリケーションの性能を大幅に向上させます。